统计数据会说谎：带有偏差的样本

达莱尔·哈夫

2018-02-13 10:26

来源：中信出版集团

【编者按】

达莱尔·哈夫，美国统计专家。在《统计数据会说谎》一书中他大胆地揭露了至今仍然被销售员、广告撰稿人、记者、专家频频使用的统计数据背后的操纵技巧。本文摘编自该书第一章《带有偏差的样本》，由澎湃新闻经中信出版集团授权发布。

平均年薪精确到个位数？

在评论《纽约太阳报》（Sun）有关报道时，《时代》（Time）杂志曾特别指出：“耶鲁大学1924届毕业生平均年收入高达25111美元。”

哇哦，他们实在太厉害了！

但稍等一下。这一令人惊叹的数据究竟意味着什么？它是否像表面看起来的那样，足以证明如果你将自己的孩子送进耶鲁大学，你就可以安享晚年，你的孩子也可衣食无忧了？

在充满怀疑地乍一看之后，我们发现这个数据有两个可疑之处：首先，它精确得让人吃惊；其次，它给人带来难以置信的好处。

把那些四处分散的人的平均年薪搞清楚并精确到个位数，这个可能性实在很小。就算你对自己去年的收入要做到一清二楚都不太可能，除非这些收入全部源自薪水。而25111美元的年收入通常并非全部来自薪水，这部分耶鲁毕业生很可能还有零零散散的各种投资。

毫无疑问，这一令人羡慕的平均数是根据耶鲁毕业生自己报出的数据计算而来的。即便1924 届毕业生在位于纽黑文市的耶鲁大学念书时谨遵其信用制度，我们也不能因此肯定多年之后，他们依然恪守该信用制度，他们口中的这些数据依然真实可靠。当被问及收入时，他们中的有些人难免会因虚荣或自负而有所虚报；有些人恐怕会尽量瞒报收入，特别在涉及所得税的问题上，他们也许会因担心与其他表单上的数据互相矛盾而犹豫不决，那些税务官们会不会看出什么端倪来呢？这两种倾向——虚报和瞒报——也许会互相抵消，但事实上这不可能。其中一种倾向也许会占上风，但究竟哪种占上风我们不得而知。

根据常识，这一数据绝对不真实，那么就让我们来分析一下。我们先来看看导致最大误差的原因，就是这个原因炮制出了某些人“平均年收入高达25111美元”的神话，然而事实上，他们的真正年收入也许仅仅接近这个数字的一半而已。

要么带有偏差，要么过于微小的样本

这就是抽样过程。在处理各类问题时，抽样过程是你所接触到的统计学主要内容的核心。其基础原理非常简单，尽管在实践中其精细到已衍生出了各种分支原理，而其中一些并不可信。如果你有一桶豆子，有些是红色，有些是白色，现在只有一个办法能让你准确得知每种颜色的豆子各有多少：一颗一颗地数。不过，还有个方法更加简便可行：随便抓一把豆子，然后数出红色豆子有多少颗，设想红色豆子在这一把豆子中所占的比例和桶里红色豆子在所有豆子中所占比例相同，由此便可大致知道桶里红色豆子究竟有多少颗。如果样本规模够大，且选择得当，那么它在大多数情况下完全可以代表整体。否则，这种方法还不如高明的猜测来得精确，除了营造出一种所谓的科学精确性的虚假氛围，这种方法毫无可取之处。可悲的是，各种各样的结论就是从这些要么带有偏差，要么过于微小或二者兼而有之的样本中获得的，而我们却并不知道自己所读到的这些结论或自以为清楚的这些结论来自这样的样本。

有关耶鲁毕业生的收入报告就来自这样一个样本。我们之所以如此肯定是因为理智告诉我们，要联络到所有尚在人世的1924 届毕业生根本不可能。多年之后，许多人的地址已经无从得知。

而且，就算知道了这些人的详细地址，他们也未必会答复调查问卷，尤其是这种关系到个人隐私的问题。就一些邮寄问卷而言，有5%或10%的回复率就已然很高了。耶鲁大学毕业生的收入调查问卷的回复率也许更高一些，但绝不可能高到百分之百。

因此，我们得出结论——该收入数据来自这样一个样本，即样本对象由既有明确地址又回复了问卷的毕业生成员组成。该样本具有代表性吗？也就是说，我们能否假定该样本群体成员的收入与那些联系不到或没有回复问卷的成员的收入处于相同水平？

哪些人将问卷丢进了废纸篓？

在耶鲁毕业生名单中，谁是那些“地址不详”的迷途羔羊呢？是华尔街富商、公司董事、制造公司和公共事业部门的高管等这些高收入者吗？不，要想获知这些富人的地址并不难。即使有些巨商富贾早已忘了和校友办公室保持联系，我们仍可以在《美国名人录》（Who’s Who in America）以及其他通信录中找到他们的地址。不妨这样猜测一下，那些失去联系的人在获得耶鲁大学学士学位之后的多年间，没有实现当初的抱负、功成名就。他们沦落成了普通的小职员、机械工、流浪汉、失业的酒鬼、勉强糊口的落魄作家和艺术家……在25111美元的收入单上，这些人占据了一半甚至更多。他们不常参加同学聚会，因为他们连路费都没有。

哪些人将问卷丢进了废纸篓？我们对此不能确定，但至少能猜到这些人的工资还没有高到能拿出来炫耀的份儿上。他们有点像这样的人：第一次领薪水时，发现工资单上附了张小纸条，要求对自己的薪水保密，不要打探同事之间的薪水。“放心好了，”他们会对老板说，“我和您一样对这点儿薪水感到丢人。”

显然，这样的样本遗漏了最有可能拉低年收入平均值的两类群体。25111美元这一数据本身就能说明问题。即使这是一个真实的数据，它也只代表1924届毕业生中有明确地址并愿意站出来公开自己收入的人的情况。即便如此，前提还得假设这些绅士们说的都是实话。

也许是我们问错了人？

不要轻率地做出这样的假设。一类被叫作市场调查的抽样研究表明，我们几乎不能做这样的假设。以前有人曾做过一个旨在研究杂志读者群的挨家挨户的调查，其中有这样一个关键问题：你们家一般都看什么杂志？调查人员将调查结果制成表格并加以分析后发现：大多数人喜爱《哈珀斯》（Harper’s）杂志，喜欢《真人真事》（True Story）杂志的人却不多。但当时出版商的数据却清楚地表明：《真人真事》的发行量高达数百万份之多，而《哈珀斯》的发行量只有几十万份。本次调查的设计者们自嘲道：“也许是我们问错了人？”

可事实并非如此，这些问卷覆盖了全美国范围内的各类社区。因此，唯一合理的解释就是许多调查对象在回答问题时并未说实话，这导致该调查所发布的数据有偏差。

最后，人们发现，如果想知道某些人喜欢看哪种杂志，直接问他们是没有用的。登门佯装收购废旧杂志反而会让你收获很多。接下来你要做的无非就是数清楚分别有多少本《耶鲁评论》（Yale Reviews）和《爱情故事》（Love Romances）。就算是这种颇令人感到怀疑的方法也无法令你得知人们究竟在读什么杂志，而只能告诉你他们曾经有什么杂志。

同样道理，下次若是你读到美国人（最近大家总是听到美国人怎么了，不过大部分内容并不可信）平均每天刷牙1.02次时（该数据是我刚编出来的，不过也许编得和其他数据一样逼真）问自己一个问题：人们怎么可能算得这么精确？如果某位女士通过无数广告宣传得知不刷牙有违社交礼仪，那她还会向陌生人坦陈自己有时并不按时刷牙吗？对那些只想知道人们对刷牙有何看法的人而言，这个统计数据也许才有意义，但在反映人们刷牙的频率问题上，该数据并没多大作用。

一条河流永远不会高过其源头

我们知道，一条河流永远不会高过其源头。但如果在某个地方藏有一个水电站，这似乎可以做到。同理，抽样调查的结果不会比它所基于的样本本身更好。当经过层层统计操作，数据被过滤成一个小数点后几位的平均数时，该结果就会令人们坚信。但是，如果对其抽样过程做进一步分析，也许会打破常理。

在早期，癌症能否被治愈？也许可以。但通常使用的据说最能证明这一点的数据其实并不能证明这一点。康涅狄格州肿瘤研究所挂号处那些数据记录可一直追溯到1935年，这些数据似乎显示，从1935年到1941年间，癌症术后5年的存活率大幅提高。其实，这些数据记录从1941年才开始采集，在此之前的所有数据都是追查所得。许多病人早已离开了康涅狄格州，他们是否尚在人世不得而知。按照医学记者莱昂纳德·恩格尔（Leonard Engel）的说法，由此而导致的偏差足以解释术后存活率为何会出现大幅提高的背后原因。

为了更具价值，一份基于样本的报告必须使用一个具备代表性的样本，该样本必须排除产生偏差的任何可能性。这正是耶鲁大学毕业生调查数据不具价值的原因，也是许多报纸和杂志内容缺乏实质意义的原因。

一位心理医生曾写报告说，其实每个人都是神经质的。抛开使用“神经质”一词会破坏该词所具有的意义不谈，先看看这位医生的样本吧。也就是说，这位心理医生的观察对象都是哪些人？原来，这一富有“启发性”的结论是他观察自己的病人得来，这些病人与普通人样本有着天壤之别。如果一个人精神正常，我们的这位医生根本就见不到他。

以这种方式再仔细看看你所读到的东西，你就可以避免相信许多似是而非的东西。

偏差总会有原因

还要记住：导致偏差的显性原因和隐性原因都有可能轻易摧毁一个样本的可靠性。也就是说，即使找不到明显的偏差来源，但只要在某处可能存在偏差，你就要对结果保持一定的怀疑。事实上偏差总会有原因。如果你对此还心存疑虑，那么1948年和1952年的总统大选便足以证明这一点。

证据可追溯至1936年《文学摘要》（Literary Digest）对当年总统大选预测失败的事例。曾经精确预测出1932年大选结果的一千万电话用户和《文学摘要》的订阅者们令倒霉的杂志编辑相信兰登（Landon）将获得370票，罗斯福（Roosevelt）只有161票。经过了如此检验的调查群体怎么会有偏差呢？然而偏差确实存在。一些大学论文和其他事后调查发现：在1936年有钱用电话和订杂志的人并不具有代表性。从经济角度来看，他们是一类特殊人群。该样本之所以带有偏差是因为事实最后证明，该样本对象都是共和党选民。样本显示兰登会胜出，但其他选民却选择了罗斯福。

基本样本就是所谓的“随机”样本，是从“整体”中随机抽取出来的，统计学家们所说的“整体”是指以样本作为其组成部分的整体：从一沓索引卡中抽取每张卡上的第10项；从一堆纸中随意抽取50张；对市场上碰见的第20个人进行采访调查。

检验随机样本的方式是：在一个总体中，每个人或每件事被抽样的概率是相等的。

纯随机抽样是唯一可以充分自信地用统计学理论进行检验的方法，但这里也有一个问题：该方法获取样本的难度大、费用高、使用范围小，仅成本一项都难以负担。一个更为经济划算的替代方法是分层随机抽样法，该方法在民意测验和市场调研等领域被普遍采用。

要获取这种分层样本，需要将总体分为若干部分，每一部分与其普遍性程度要成比例。这时麻烦就出现了：你得到的分组比例信息未必正确。你会指示调查员们务必要调查采访足够多的黑人，在多个收入选项中，要保证接受每一项调查的人员的比例符合要求，还要采访调查一定数量的农民等。同时，还要确保每一组中40 岁以上和40 岁以下的人数相等。

这听起来不错，但结果如何？在黑人或白人的问题上，调查员倒通常不会轻易出错。但在按收入分组时，可能问题较多。就拿农民来说，对于一个平时在城里上班，闲暇时去农场干活的人，他算不算农民？即使在年龄问题上也有一大堆麻烦——简单的做法是选择明显小于40岁或大于40岁的人作为调查对象。但这种样本也有偏差，因为其中缺少将满40岁和刚过40岁的群体。这样一来，你就很难达到既定目标。

最重要的是，你如何在分层内部获取随机样本呢？最简单的做法是列出所有人的姓名，然后从中随机抽取若干，但这样做成本太大。如果你改为上街做随机调查，就会因遗漏了宅男宅女而产生偏差；如果你挨家挨户做上门调查，就会遗漏大多数白天上班的人；如果你转而改为晚上做调查，还是会遗漏晚上在电影院和夜总会的人。

民意调查最终都会演变成一场反对偏差来源的持久战。所有信誉良好的民意测验机构都在进行着这场战争。但阅读调查报告的读者应谨记：这种战争没有绝对的赢家。如果你看到类似于“67%的美国人都反对……”的报道时，不要急着下结论，而是应当仔细想想，哪些美国人中的67%？

一般而言，民意调查都会带有特定方向的偏差。如果你对这些民意调查的结果有所质疑，你可以收集有力证据来证明，比如《文学摘要》的方向错误。《文学摘要》的错误在于它选择了与普通人相比生活更为宽裕、受过良好教育、消息灵通、警惕性高、着装雅致、行为保守且爱好较为固定的群体作为调查对象。

我不妨举个例子，这样你就能看出这样的偏差会产生怎样的结果。假设你是一位被分派到街道某个角落的调查员，你发现了两个符合调查对象条件的人：年逾40岁且居于城市，其中一人衣着整洁、文质彬彬，另一位却邋遢粗暴。为了完成你的任务，你自然而然会走向那个外表博人好感的家伙，而你遍布全美国的同事也会做出同样的选择。

在自由人士和左翼团体中有不少人强烈反对民意调查，他们普遍认为这种调查都是人为操纵的。之所以会产生这种看法，是因为民意调查的结果往往不符合保守之人的观点和意愿。以1936年总统选举的民意调查为例，他们指出调查结果显示的是共和党人会当选，然而不久之后选民们却做出了完全相反的选择。

事实正如我们所见，完全没有必要操纵一场民意调查，也不用为了制造一种假象而刻意扭曲调查结果。如果样本的偏差与期望的结果一致，就能达到自动操纵的效果。

《统计数据会说谎》，[美]达莱尔·哈夫著，靳琰、武钰璟译，中信出版集团2018年1月。

责任编辑：方晓燕

校对：张艳