女士品茶:统计学如何变革科学和生活

女士品茶:统计学如何变革科学和生活
作者: 著 者:[ 美 ]? 戴维·萨尔斯伯格 (David Sal
出版社: 九州
原售价: 75.00
折扣价: 56.61
折扣购买: 女士品茶:统计学如何变革科学和生活
ISBN: 9787522532479

作者简介

戴维??·萨尔斯伯格(David Salsburg),康涅狄格大学统计学博士,原辉瑞公司资深统计研究员,美国国家统计学会(ASA)会员,先后任教于哈佛大学公共卫生学院、康涅狄格大学、宾州大学、罗德岛学院及三一学院,著有多部统计学专著,本书是其代表作。

内容简介

第一章? 品茶的女士 20 世纪 20 年代末一个夏日的午后,在英国剑桥,一群大学教员、他们的妻子以及一些客人围坐在室外的一张桌子周围喝下午茶。一位女士坚持认为,将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。在座的科学家都觉得这种观点很可笑,没有任何意义。这能有什么区别呢?他们觉得两种液体的混合物在化学成分上不可能有任何区别。此时,一个又瘦又矮、戴着厚厚的眼镜、留着尖髯的男子表情变得严肃起来,这个问题让他陷入了沉思。 “让我们检验这个命题吧。”他激动地说。他开始规划一个实验,让声称两种茶存在区别的女士按顺序品尝若干杯饮品,其中有些是加了茶的牛奶,有些是加了牛奶的茶。 有些读者会说:这绝对是吃饱了撑得!他们会问:“不管这位女士能否分辨两种饮品,这件事有什么意义呢?”“这个问题一点儿也不重要,对科学也没有益处,”他们嘲笑道,“这些聪明人应该把他们的头脑用在能够造福人类的事情上。” 不幸的是,不管普通大众如何看待科学及其影响,根据我的经验,大多数科学家之所以投入研究当中,是因为他们对结果感兴趣,并能从工作中获得知识性的乐趣。优秀的科学家很少会考虑他们的工作是否具有重要意义。回到剑桥那个阳光明媚的夏日午后。女士有可能猜中饮品的混合方式,也有可能猜错。这件事的乐趣在于找出一种方法判断她的说法是否正确。在尖髯男子的指导下,他们开始讨论如何验证这种判断。 许多人充满热情地加入设计实验的工作中。几分钟之后,他们开始在那位女士看不到的地方以不同的方式泡茶。最后,决定性的时刻到了,尖髯男子把第一杯茶递给了女士。她品了一分钟,宣布这杯茶是将牛奶倒在茶里制作出来的。尖髯男子将她的回答记录下来,没有发表任何评论,然后把第二杯茶递给她…… 科学的合作本质 20 世纪 60 年代末,我从一个当天下午在场的人那里听到了这个故事。他叫休·史密斯(Hugh Smith),不过他的科学论文都是以 H. 费尔菲尔德·史密斯(H. Fairfield Smith)的名字发表的。我认识他的时候,他是斯托斯的康涅狄格大学的统计学教授。两年之前,我在康涅狄格大学获得了统计学博士学位。在宾夕法尼亚大学任教之后,我加入了大型制药公司辉瑞公司的临床研究部。该研究部位于康涅狄格州格罗顿市,距离斯托斯大约一个小时车程。 我在辉瑞需要处理许多棘手的数学问题。当时我是那里唯一的统计学家,我需要与大家讨论这些问题和我的“解决方案”。 通过在辉瑞的工作,我发现科学研究几乎无法依靠一个人独自完成,通常需要多人合作。这是因为人们很容易犯错误。当我提出用于解决某个问题的数学模型,这个模型有时是不恰当的,或者我对当时的情况引入了一条错误的假设,或者我发现的“解决方案”来自等式的一个错误分支,就连我的验算也可能出错。 每当我去斯托斯的大学与史密斯教授讨论,或是去找辉瑞公司的化学家和药理学家讨论问题,他们通常都对我提出的问题表示欢迎。他们会带着热情和兴趣和我讨论。大多数科学家对工作的兴趣通常来自解决问题的激情。他们期待着研究问题、理解问题时与他人交流。 实验设计 回到那个夏日午后的剑桥。留着尖髯的男子叫罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher),当时不到40 岁。他后来被封为罗纳德·费希尔爵士。1935 年,他写了一本名为《实验设计》的书,在第二章描述了女士品茶的实验。在书中,费希尔将这位女士和她的观点作为假设问题进行了讨论。他考虑了各种实验设计方法,以确定这位女士是否能判断出两种茶的区别。设计这项实验的问题在于,如果给她一杯茶,那么即使她无法判断出区别,她也有 50% 的机会猜对茶的种类。如果给她两杯茶,她仍然可能猜对。实际上,如果她知道两杯茶的制作方式不同,那么她对两杯茶的猜测可能都是对的(或者都是错的)。 类似地,即使她能判断出区别,仍然存在问题。她可能犯错误:某杯茶可能混合得不够好,或者混合的时候茶的温度可能不够高。面对 10 杯茶,她也可能只答对 9 杯。 在书中,费希尔讨论了这种实验的各种可能结果,描述了如何确定应当测试多少杯茶、测试的顺序以及应向女士透露多少顺序信息。他计算出了在女士拥有或没有辨别能力时出现不同结果的概率。在讨论中,他并没有暗示这种实验曾经发生过,也没有描述实验的真正结果。 费希尔这本关于实验设计的书是 20 世纪上半叶横扫所有科学领域的一场统计革命的重要组成部分。在费希尔登场前,科学实验已经进行了几百年。16 世纪后期,英国物理学家威廉·哈维(William Harvey)曾用动物做实验,通过阻断不同静脉和动脉的血流,发现血液是循环流动的,从心脏流到肺,回到心脏,再流向身体各个部分,最后流回心脏。 费希尔并没有将实验作为获取新知识的方式。在费希尔以前,实验是每个科学家的个人作品。优秀的科学家通过构造实验获取新的知识。平庸的科学家往往会通过“实验”得到许多数据,但是无法获得新的知识,如 19 世纪晚期诸多试图测量光速的科学家毫无结果的努力。直到美国物理学家阿尔伯特·迈克尔逊(Albert Michelson)用光和镜子构造了一系列非常复杂的实验,人们才得到了第一组良好的光速估计值。 19 世纪,科学家很少发布实验结果,他们会宣布他们已发表的数据“证明了”他们所得结论的正确性。格雷戈尔·孟德尔(Gregor Mendel)没有公布所有豌豆育种实验的数据。他描述了实验顺序,然后写道:“两组实验的前10个结果可以用于说明 ……”(20 世纪 40 年代,费希尔检查了孟德尔用于“说明”的数据,发现它们的精确程度过高,没有表现出应当具有的随机性,不可能是真实的。) 尽管科学的发展来自仔细的思考、观察和实验,但从来没有人能说清应当如何做实验,而且人们通常不会把完整的实验结果告诉读者。 19 世纪末 20 世纪初的农业研究尤其如此。20 世纪早期费希尔工作过的洛桑农业实验站在费希尔到来之前对不同肥料成分(叫作“人造肥料”)进行了将近 90 年的实验。在每 次实验中,工人通常会在整块田地上播撒磷酸盐和氮盐的混合物,然后种植谷物,并对收获的粮食以及当年夏季的降水量进行统计。他们用一些详细的公式“修正”一年中一块田地的产出,以便与另一块田地或同一块田地其他年份的产出进行比较。它们被称为“肥料指数”。每个农业实验站都有自己的肥料指数,人们都认为自己的指数比别人的指数准确。 实验站 90 年实验的结果是一堆混乱的结论和大量没有发表的、毫无用处的数据。看起来,某些小麦品种比其他品种更适合某种肥料,前提是当年要有足够多的雨水。另一些实验似乎表明,头一年使用硫酸钾,第二年使用硫酸钠,可以让某些马铃薯品种增收,但对其他品种没有效果。对于这些人造肥料,人们能得出的最好结论是,有些肥料有时也许可能有效。 作为一名出色的数学家,费希尔查看了洛桑的农业科学家用于修正实验结果中不同年份天气差异因素的肥料指数。他研究了与之竞争的其他农业实验站使用的指数。他发现,在基本的代数层面上,它们属于同一公式的不同表现形式。 换句话说,相互之间激烈竞争的两组指数实际上做的是同样的修正。1921 年,他在顶级农业期刊《应用生物学年报》发表了一篇论文,指出使用不同指数的效果是相同的。这篇论文还指出,所有这些修正都不足以纠正不同田地肥料的差异。这篇出色的论文结束了 20 多年的科学争论。 接着,费希尔研究了过去 90 年的降水量和作物产量数据,指出不同年份天气因素的影响比不同肥料的影响大得多。根据费希尔后来在实验设计理论中的说法,不同年份的天气差异和不同年份的人造肥料差异是“混合的”。这意味着我们无法将二者从这些实验数据中分离开。这表明,90 年的实验和超过 20 年的科学争论几乎完全是在浪费时间。 这让费希尔开始思考实验和实验设计。他的结论是,科学家在实验之前需要为实验结果建立数学模型。所谓数学模型,指的是一组等式,其中一些符号代表实验中收集的数据,另一些符号代表实验的总体结果。科学家需要根据实验中得到的数据,计算出相应科学问题的合理结果。 考虑一位老师与某个学生的简单例子。老师想用某种方法衡量学生对知识的掌握程度。为此,老师通过对学生进行一组测试来“实验”。每个测试的评分为 0 到 100 分。任何一次测试对学生学习程度的估计并不准确。学生可能不知道测试上的那些问题,但是知道许多测试上没有提到的知识;学生可能在参加某次测试的当天头疼;学生可能在参加某次测试的早上与父母吵了一架。出于很多原因,一次测试无法对学生掌握的知识做出良好的估计。所以,老师布置了一组测试,将所有这些测试的平均分作为对学生学习程度的参考。学生对知识的掌握程度是结果。每次测试的分数是数据。 老师如何组织这些测试呢?每次测试应当只涉及过去几天讲授的内容吗?每次测试应当包含之前讲授过的所有内容吗?这些测试应当每月进行一次,每天进行一次,还是每个单元结束后进行一次呢?所有这些都是实验设计需要考虑的问题。 如果农业科学家想知道某种人造肥料对小麦生长的影响,他需要构造一个实验,得出对这种影响进行估计的数据。费希尔指出,这种实验设计的第一步是建立一组描述实验测量数据与估计结果之间关系的数学等式。接着,为了实现目的,这个实验必须能够让人们对这些结果进行估计。实验必须是具体的,能让科学家确定源自天气的结果差异与源自不同肥料的结果差异的比值。此外,必须将同一实验中比较的所有处理因素包含进来,这些因素后来被称为“对照因素”。 在《实验设计》中,费希尔提供了几个优秀的实验设计例子,总结出了良好实验设计的一般原则。不过,他的方法涉及的数学非常复杂,大多数科学家都无法独自构造实验设计,只能使用费希尔在书中提到的某个设计模型。 农业科学家们认识到了费希尔在实验设计上所做工作的巨大价值,费氏方法很快在大多数英语国家的农学院占据了统治地位。费希尔最初的工作引出了一大批描述不同实验设计的科学文献,这些设计应用到了农学以外的其他领域,包括医学、化学、工业质量控制。许多领域涉及的数学都非常深奥复杂。不过目前,我们只需要知道,科学家无法随心所欲地“实验”。这需要长期仔细的思考,通常还涉及大量深奥的数学知识。 至于那位品茶的女士,她后来怎样了呢?费希尔没有描述那个阳光明媚的夏日午后发生在剑桥的那场实验最终的结果如何。不过史密斯教授告诉我,那位女士正确判断出了每一杯茶的制作方式。 ◎ ChatGPT 如何靠概率“写”出一篇文章?为什么百年一遇的极端天气总是高频率出现?名校毕业的父母为何常常会养育出泯然众人的孩子?为什么说贝叶斯思维是地球上最强势的科学观?统计学不仅可以洞见现实,揭示真理,更能测量未来!统计学传奇大师拉奥曾说:“一切获取知识的方法本质上都是统计学。”人工智能时代,不懂统计学,就如同自断筋脉,自废武功。 ◎本书是统计学入门*经典的读物,堪称统计学普及领域的《苏菲的世界》。在作者笔下,固执的皮尔逊、低调的戈塞特、天才的费舍尔等学界巨擘如武林高手过招,在统计学的思想领域激烈交锋。一个个统计学概念,被大大小小的故事串联成一张知识的巨网,读者在不觉间即可学会使用统计学思维解决问题。