统计数字会撒谎(精)
作者简介
达莱尔·哈夫(Darrell Huff)美国统计专家,于1913年出生在美国爱荷华州,毕业于爱荷华州立大学(the State University of lowa),获得学士学位和硕士学位,在此期间他由于成绩优异加入了美国大学优等生的荣誉学会(Phi Beta Kappa),同时还参加了社会心理学、统计学以及智力测验等研究项目。达莱尔·哈夫的文章多见于《哈泼斯》、《星期六邮报》、《时尚先生》以及《纽约时报》等美国顶尖媒体。1963年,由于他的贡献被授予国家学院钟奖(National School Bell Award)
内容简介
有一个装着红、白两色豆子的桶,如果你想要准确知道这个桶中两种 豆子的数量,你惟一能做的只有一颗一颗地数豆子。 用一种更简单的方法也可以揣测红豆的数量:抓一把豆子,假定手中 红豆的比例与桶中红豆的比例相同,只要数一数手中的豆子即可。如果你 的样本足够大,并且选择方法正确,在大多数情况下它能够很好地代表整 体。但是,如果以上两个条件不满足,这样的样本比一个臆想好不到哪儿 去,除了能够营造科学精确的假象之外,其他则根本不值一提。不幸的是 ,我们所看到的,或者我们自以为了解的许多事物,往往都是根据类似样 本所得出的结论,这种样本可能变得有偏,由于选择方式的不合理或者容 量过小,抑或两种情况同时存在。 通过一个极端的例子可以马上看到如何形成有偏的样本。假设你向同 胞发放问卷,问卷中包含这样一个问题:“你乐意回答调查问卷吗?”整 理所有的答案,你很有可能得到下面的结论:“一个选自总体、典型的横 截面”中,压倒多数的人选择了“乐意”。为了具有说服力,你还可以详 细列出这个比例,直至最后一位小数。事实上,大多数持否定意见的人, 已经随手将你的问卷丢进最近的纸篓中,从样本中自动除名了。哪怕最初 的样本中,10个里面有9个会当这种“投手”,在宣布你的结果时,你仍然 会遵从惯例,忽略他们。 现实生活中,样本会按照上述方式变得有偏吗?相信我,一定会。 不久前,报纸和新闻杂志上报道:近10年来美国大约有400万名天主教 徒变成了基督教徒。资料来源于由丹尼尔·A.波林(Darnel A.Poling)牧师 主导的调查,丹尼尔·A·波林是教派组织《基督教先驱报》(Christian Herald)的编辑。《时代》(Time)杂志描述了整个故事的梗概: “通过对全美基督教牧师的横截面展开调查,《先驱报》得到了凋查 结果。调查共发出25000份问卷,其中2219名牧师反馈回了问卷,回收的问 卷显示:在过去10年里共有51361名原罗马天主教徒变成了基督教徒。根据 样本推算,波林得到了全国范围的估计:近10年来全美共有4144366名天主 教徒改变信仰,变成了基督教徒。主教威尔·奥斯勒(will 0urslex·)写 道:‘即便考虑到误差,全美范围内这一数据也不可能少于200万或者300 万,而且很有可能接近500万。’” 到被调查的牧师巾超过90%的人没有回答,这已经值得我们向它鞠躬 表示敬意了。为了彻底破坏调查结果的可信度,我们只需要指出:这个 “500万”是不可靠的,因为调查中有高达90%,的牧师没有发表看法,或 许他们中大多数都早已将调查问卷投进了纸篓。 根据以上判断,我们利用管辖范围内所有牧师人数,即181000人—— 该数据就是波林博士计算时所采用的数据——进行自己的推算。由于从 181000名牧师中抽取了25000人接受调查,得到了改变信仰的教徒为51361 人,如果调查全部牧师,转变信仰的总人数应该约为370000人。 我们这种粗糙的方法产生了一个十分可疑的数据,但是它至少与那个 在全国范围发布的数据一样“可靠”,而后者却是前者的11倍,是的,300 万看上去更加令人欢欣鼓舞些。 至于奥斯勒先生充满自信的那句话“考虑到误差”,好吧,如果他发 现了一种方法足以弥补未知量所带来的误差,那么整个统计界都将会为之 感激涕零。 在上述背景下,让我们来研究一则以前的新闻报道:“1924级的耶鲁 毕业生平均年收入为25111美元”,要知道几年前的钱是更值钱的。 好家伙,他们干得真不赖! 可是,等一等,这个令人印象深刻的数字到底意味着什么?是否像表 面看到的那样,足以证明如果你把你的男孩送进耶鲁大学,或者牛津大学 ,那么在年老时,你就不需要辛苦地上班,甚至他将来年老时也不用上班 ? 在充满怀疑的惊鸿一瞥后,关于该数字的两个疑点凸现出来:它惊人 的精确;它大得令人难以置信。 对一群相隔千山万水的人,了解他们的平均收入,而且竟然精确到以 元为单位,这几乎不太可能。就算是自己去年的收入,除非全部来自薪水 ,否则也很难知道得如此准确。但是对于年收入25000美元的阶层来说,投 资渠道更广,因此他们的收入不可能完全来自于薪水。 而且毫无疑问,这个可爱的平均数出自耶鲁人之口。即使1924年他们 在纽海文接受过优良的教育,也很难保证四分之一个世纪后,他们还能坚 持说真话。当问及收入时,有些人出于虚荣或者天生乐观而夸大数据;有 些人却故意缩小数字,特别当涉及征所得税问题时,往往会犹豫不决,生 怕与其他文件填报的数据不符,谁知道税务员又看到了什么?这两种趋势 ——夸大与缩小,也许将相互抵消,但这种可能性很小。一般而言,一种 趋势总会强于另一种,但我们很难猜测哪种趋势将胜出。 …… P3-6