拆穿数据胡扯
作者简介
美国华盛顿大学生物学系教授。他研究流行病如何在人群中传播,以及信息如何大规模地在生物和社会系统中流动——从细胞内对基因表达的控制到社交媒体上错误信息的传播。他广为人知的是跨界整合自然科学和社会科学思想的能力,特别是在信息研究领域造诣很深。他发表了多篇前瞻性的文章,涉及信息科学、计算机科学、控制论、进化生物学、信息论、科学哲学、物理学等方面,其中有很多发表在《自然》《科学》《美国国家科学院院刊》上。 美国华盛顿大学信息学院副教授、公众知情中心主任。
内容简介
前言(节选) 当今社会胡扯现象随处可见,令人不胜其烦。政治家无视事实信口开河,科研人员把发新闻稿视为科学研究,硅谷的初创公司将胡扯发展到了艺术的高度,大学奖励的是胡扯而不是分析思维,大多数管理活动似乎只不过是一个对胡扯进行编排组合的复杂过程。心怀不轨的广告商朝我们眨眨眼,诱导我们和他们一起把胡扯进行到底,而我们也眨眨眼表示回应——但与此同时,我们就会放松警惕,对他们奉送的修饰过的胡扯信以为真。胡扯在具体问题上误导我们,破坏我们对一般信息的信任,因此会污染我们这个社会。尽管能力有限,但我们希望可以通过本书,对这一现象给予回击。 ………… 要彻底消灭胡扯,就需要准确地了解它是什么。这就有点儿棘手了。 首先,“胡扯”(bullshit)既是名词也是动词。我不仅听腻了你的胡扯(名词),也可以反过来跟你胡扯(动词)。这很好懂。简单地说,胡扯作为动词就是指说一些胡扯的话。 但是,“胡扯”这个名词到底指的是什么呢?和许多人试图用哲学概念匹配日常语言的努力一样,试图为它制定一个泾渭分明的定义的努力也必然徒劳无功。因此,我们将从例子着手,描述一些可以称之为胡扯的东西。 大多数人都认为自己擅长发现胡扯。当胡扯以修辞或花哨的语言形式出现(我们称之为老派胡扯)时,他们这样想也许没有错。 老派胡扯似乎并没有消失,但随着新派胡扯的兴起,它似乎没有那么引人注目了。新派胡扯使用数学、科学和统计语言来制造严谨准确的印象。它们利用数字、统计数据和数据图表粉饰那些可疑的论断,给它们披上了一层合理的外衣。新派胡扯可能会采用下面这些形式: ?根据货币汇率加以调整后,我们表现出色的全球基金在过去9年中有7 年跑赢了市场。 (回报率到底是如何调整的?该公司有多少基金未能跑赢市场,相差多少?就这个问题而言,是某一只基金在9年中有7年跑赢了市场,还是在这7年中每年都有一只不同的基金跑赢了市场?) ?虽然没有统计意义(p = 0.13),但我们取得的结果突出表明了我们靶向治疗肿瘤的临床意义(5年生存率比为 1.3),并对当前的治疗范式提出了挑战。 (如果一个结果没有统计意义,那么讨论它的临床意义又有什么意义呢? 5年生存率是这种特定癌症的相关指标,还是说大多数患者在3年内死亡?为什么我们要认为这“对当前的治疗范式提出了挑战”?) ?该团队的卷积神经网络算法可以从一个由人类代谢组、转录组和蛋白质组构成的多层网络中提取底层控制逻辑。 (什么是多层网络?这些不同的“组”之间的连接有什么重要意义?如何测量?作者所说的“控制逻辑”是什么意思?我们如何知道这些系统真的是通过一个底层控制逻辑连接到一起的?我们如何确证这种方法可以提取这个底层控制逻辑呢?) ?我们的系统筛查显示,34%的有行为障碍的二年级学生承认在过去一年里至少闻过一次神奇马克笔。 (这个数据很重要吗?如果真的很重要,那么闻马克笔这个行为是“行为障碍”的原因还是结果?有多少没有行为障碍的二年级学生承认闻过马克笔?也许这个比例更高!) 新派胡扯之所以特别有效,是因为我们中的许多人觉得没有资格质疑以数量形式呈现的信息。这让那些新派胡扯者们正中下怀。要反击,就必须学会在合适的时机,以合适的方式质疑这些言论。 ………… 在教学中,我们一直在教导学生如何对数据进行逻辑和定量思考。本书源于我们在华盛顿大学教授的一门叫作“Calling Bullshit”(与本书同名)的课程,目的是说明一个事实:即使你不是一名专业的统计学家、计量经济学家或数据科学家,你也能批判性地思考那些定量论证;无须大量数据和数周时间,也能看穿胡扯。只要有基本的逻辑推理,在需要的时候,再辅以通过搜索引擎轻松获取的信息,通常就足以解决问题了。 新的信息技术已经改变了我们的科学和社会交流方式。随着信息获取途径得到改善,信息超载的现象愈演愈烈。我们希望本书能帮助你面对。 这是一本教读者如何从众多的信息中辨识真正有用的信息、数据和观点的实用读物。今天,信息噪声常把自己包装成大数据和神奇算法的模样,用量化信息震慑读者。如何分辨其中哪些是真正有用的信息,哪些只是胡说八道的噪声? 在本书开头,作者定义了胡扯(老派胡扯与新派胡扯),讨论了胡扯在我们进化史中的深层起源,并解释了在今天的数字环境中胡扯能迅速扩散的原因; 接下来,两位作者对打着数学和统计学幌子的各种信息噪声一一进行剖析,通过举例让读者掌握分辨信号与噪声的基本技能; 最后,作者还提醒读者如何友好、善意地“当面指斥胡扯”,以及如何完善自身。 读完这本书吧,让我们都能有底气地当面指斥胡扯,在这个大数据时代、算法时代摆脱海量信息噪声的困扰。