信息差:看透大数据背后的底层逻辑

信息差:看透大数据背后的底层逻辑
作者: (英) 保罗·古德温 著 董丹枫 译
出版社: 文化发展
原售价: 49.80
折扣价: 26.90
折扣购买: 信息差:看透大数据背后的底层逻辑
ISBN: 9787514242041

作者简介

保罗·古德温(Paul?Goodwin) 英国巴斯大学教授,教授统计学、预测和决策,众多政府部门、公司的规划顾问,对大数据和统计学有深入的的研究,出版过多本关于统计学的书。

内容简介

“最佳” 当我在谷歌(Google)搜索“年度最佳”这个词组的时候,搜到了6840000个结果。这当中不仅有年度最佳博物馆、年度最佳商业分析师、年度最佳议员、年度最佳养老金计划、年度最佳布道演说、年度最佳棺材生产商,还有众多例如年度最佳书籍、年度最佳球员和年度最佳雇主的奖项,甚至还有年度最佳厕所。还有一个叫作“年度最怪书名”的奖项,它2017年的热门候选书籍包括了《膝盖上的乳头》和《伦纳克斯澳大利亚前十进制和十进制硬币错误:澳大利亚前十进制和十进制硬币错误最全指南》。 一个仅有一步之遥的头衔可以激起人们巨大的好胜心。曾经就出现过园艺大赛的参赛者趁深夜蓄意毁坏对手精心培育的植物的事件。还有在观鸟这项本该是英国人展现优雅、绅士的活动中,参与者竟然为了争夺排名而大打出手,还被华盛顿邮报的资深记者安东尼·费奥拉(Anthony Faiola)评论为“十分凶残”。类似这样的报道比比皆是。有时候,一些奖项的设置旨在激励企业提高产品和服务水平,并赋予获奖企业相应的荣誉和满足感。不承想,这些努力和进步却可能被一些未获奖企业的消极懈怠甚至愤恨、埋怨给抵消掉。 排名和奖项除了可能造就几家欢喜几家愁的情况,还深深影响着我们的决策。我们可能会选择荣获“年度大学”的学校,购买获评“年度汽车”的座驾,按照“年度财务顾问”的观点投资理财,或把晋升名额给一位赢得了“年度期刊论文”的学者。可是,排第一的真的就是最好的吗? 有时,排名的意义就像是判断苹果和橙子孰优孰劣——如果无法抉择,那就扔硬币决定吧。既然非要比个高下,那肯定得有个赢家,否则就闹了笑话。多年前,我的一个亲戚被邻居临时拉去做青少年女子舞团比赛的裁判,因为其中一个常务裁判因病缺席了。我亲戚推辞道:“可是我完全不懂跳舞啊!”那位邻居咯咯地笑了:“没事儿,到时候你拿到排名表,随便填一下就行啦。我一直都是这样弄的。”我不禁想到,也许此时在什么地方,一位中年女士正拿着旧照片,骄傲地向她的孙子孙女们展示自己曾经获得的女子舞团大奖。 就算我们想公平公正地进行排名,可面对众多选项,第一的殊荣到底颁发给谁不免让人为难。报章杂志经常有一些排名专栏,推荐伦敦最好吃的餐厅、今年最值得购入的车或者今年最值得一读的新书。当然,严格来讲,只有所有候选人都被全面地评估对比之后,这些评级才算是准确的。可是这些专栏作者真的尝遍了伦敦所有餐厅,试驾了近一年上市的所有新车,或是翻阅了每一本新书吗?要知道,伦敦至少有17000家餐厅;仅2018年二至四季度就有67款新车计划上市;2015年英国大约出版了173000本新书。 美国心理学家贝瑞·施瓦茨(Barry Schwartz)把这样一些人定义为“最大化者”, 他们认为“识别出最优选择是十分重要的”,他们都在坚定地追寻着更理想的工作、更契合的伴侣、更称心的汽车或更舒适的住处。在施瓦茨的诊断量表中有这样一道问题,问答题人是否同意以下说法:“我认为感情就像是衣装一样——我期待在找到最合适的之前,可以多试几次。”另一个问题则是问答题者在多大程度上认为自己“喜欢那些给事物排名的清单(例如最佳电影、最佳歌手、最佳运动员、最佳小说,等等)”。 你很可能会发现“最大化者”很喜欢不断地切换电视频道,因为他们总觉得其他台可能在播更好看的节目;或者发现他们也会在商店中花上好几个小时,只因为苦恼哪个产品最值得入手。写电子邮件、编辑短信更是让他们苦恼不已,因为措辞得恰到好处才行。悔恨和自责往往主宰着他们的思想,因为他们意识到,尽管付诸努力,还是会与最好的失之交臂。 我记得曾经跟一个朋友一起计划去安达卢西亚(Andalucia)度假。当我觉得计划敲定时,我们又突然挑出毛病来,譬如这样安排价格太高了,而且花在小巴车上的时间未免也太多了。于是我们开始研究便宜一些的行程。但这些都不像第一选择那么有吸引力,原计划我们会住在风景如画的山间别墅中,可结果我们只能蜗居在繁华城镇的混凝土搭建的高层酒店里。也许原本的计划才是最好的计划,只可惜…… 美国经济学家、诺贝尔奖得主司马贺(Herbert Simon)也提出了一个概念——“满足者”。相比“最大化者”,“满足者”的生活可能要幸福得多,他们懂得知足,不吹毛求疵,因此对排名没什么执念。 不想思考 最大化者承受的巨大痛苦,一部分来源于无法将面前的不同选项进行比较。当我们挑选汽车的时候,某一款车可能空间大、颜值高、配置高级且性能可靠,但它同时可能油耗大,甚至在平地行驶时都会颠簸不稳、噪声不断。而另一款车可能性价比更高,但相比之下外观显得十分老土且空间狭小。 心理学家发现,当面对这种情况时,我们是无法处理这当中所有的信息的。换句话说,我们不得不在心里做出取舍。油耗多10个单位换成多少腿部空间划算?更多的配置值得我放弃平稳的驾驶感吗?为了不庸人自扰,我们会采用简化的方式来处理。其中一个策略就是,找出一个我们认为是最重要的条件,比如说“性能可靠”,然后把所有的备选按这个条件进行排列,别的条件就暂且抛掷脑后吧。如果出现两个备选不分上下的情况,那就再找出一个第二重要的条件,比如“油耗低”,然后再进行排列,以此来类推。这个简单的方法有一个冗长到不搭调的名字——按词典编辑方式排序(lexicographic ranking),因为它效仿了单词在词典中排列的方式。但使用这个方法有一个问题——它可能会指引你挑到一辆性能十分可靠,但其他方面都很糟糕的车。 另一个策略是,给每个条件设置一些合理的限制,然后剔除所有不符合要求的备选车型。例如,去掉油耗优于45英里每加仑的车,腿部空间小于4英尺(约1.2米)的车,后备箱位置太小的车,等等。以此期待着最后能留下一款符合要求的车。这个方法的问题是,也许你去掉了一辆44英里每加仑油耗的车,但其实,它的其他方面都挑不出毛病。 在某些情况下,我们可以把脑力劳动简化到最小,去选择一辆我们熟识的品牌的车,而不是那些闻所未闻的牌子。心理学家把这种决策方式称为再认启发式。这个方法有时候蛮合理的,因为能成为知名的品牌或产品,它们大多已经经过时间和市场的检验。但这个方法也不是万能的,比如所有可选产品的牌子我们都认识,或者某个极富创新力的小众品牌的东西其实更好。 又如,招聘过程中,有一些雇主会用一种叫作“以特征淘汰”的方法,帮助他们从成堆的求职简历中快速筛选出一份数量合适的候选者名单。很多人都在好奇,究竟有多少优秀的人,只因为考试分数比硬性规定的低了几分,或是因为相关岗位的工作经历比烦躁不堪的经理草率定下的时长少了一个月,而最终没能进入候选名单。 到头来,我们还是经常任凭直觉来行事。我们选了那辆停在家门口会让邻居交口称赞的车;我们选了那位跟公司的气质最搭,看起来性格为最热情开朗的应聘者。反正,最后我们总能自圆其说地想出一些理由,让我们的决策过程听似深思熟虑、严正无误。 评审团悖论 大多数“年度最佳”一类的奖项,不论是评选书、车、球员、还是雇员,都是由一组评审而不是一个人来打分的。比如,2018年的英国曼布克小说奖就有5位评审,而英国年度汽车大奖有27位评审。英文中有句俗语:“两个脑袋总比一个强。”这么说来,5个脑袋或者27个脑袋肯定更强,肯定能评出一个让大家都信服的排名。我们只需要找一组专家,让他们每个人按照自己的偏好给候选人排名,并把票投给他们心仪的那个,那么获得最多票数的候选人就是大奖得主。遗憾的是,孔多塞侯爵(Marquis de Condorcet,18世纪法国哲学家、数学家)早就指出来,这种投票方法在一些情况下会导致一个非常荒诞的结果。 孔多塞出生于1743年,在那个年代,他是一个观念十分先进的人。他支持女性拥有选举权,谴责奴隶制度,捍卫人权,并且公开反对死刑。在法国大革命期间,他表现得十分活跃,最终得罪了当局,在躲避了一段时间后被捕。两天后,他在狱中离奇死亡。但是,他为人类留下了珍贵的遗产。孔多塞几乎是最早将数学应用在选举制度分析的人。1785年,他写下了一篇文章,阐述了一种被当代人称为“孔多塞悖论”的理论。 假设一个评审团有三名评委——派克、昆兰、和罗杰斯,他们要评出“年度最胡言乱语奖”。这个大奖会颁给在过去的一年中发表过最令人费解言论的名人。[当然,在现实中并没有这个奖项。不过英国简明英语运动有一个“不知所云奖”(Foot in Mouth Award),是颁给言辞最令人困惑的公众人物的。最近的得奖者包括雅各布·里斯-莫格[ 英国保守党成员。(译者注)](Jacob Rees-Mogg),罗素·布兰德[ 英国喜剧演员。(译者注)](Russell Brand),埃隆·马斯克[ 美国企业家、商业大亨。(译者注)](Elon Musk)和米特·罗姆尼[ 美国企业家、政治人物。(译者注)](Mitt Romney)。]我们的“年度最胡言乱语奖”,最终有三人入围候选名单,不过为了不让人太过难堪,我们姑且叫他们A、B和C。三名评审分别给三个候选人的排名如下(例如派克认为名人A是最佳人选,跟着是B,其次是C): 派克: A B C 昆兰: B C A 罗杰斯: C A B 为了简化决策过程,评审们同意对候选人进行两两对比。有两位评审相较B更喜欢A,所以A比B票数更高。有两位评审相较C更喜欢B,所以B比C票数更高。到这一步,我们似乎已经有了结果——A胜了B,B胜了C。可是就当我们准备宣布名人A获得大奖的时候,有人发现了一个问题:如果我们将A和C进行比较,票数更高的将是C。孔多塞证明了这种投票方式会让我们进入一个无止境的偏好循环,也就是出现了关系的“不可传递性”。大部分评审觉得A比B好,大部分评审也觉得B比C好,可是,怪诞的是,大部分评审同时还觉得C比A好。更糟糕的是,聪明的评审还可以利用这种投票机制,以确保他们最不喜欢的候选人必然会落选。他们会故意投票给并非自己真正支持的候选人,来达到上述目的。这种方式也被称为策略性投票或战术投票。 时间过去了150年,就在二战之后,美国经济学家肯尼斯·阿罗(Kenneth Arrow)在自己的“不可能定理”中对孔多塞的理论进行了延伸,这个定理也让他获得了1972年的诺贝尔经济学奖。阿罗教授证明了,当有两个以上候选人参加排名的时候,没有任何一个投票机制能保证同时满足下面这些合理的条件:避免出现不可传递性;没有独裁者在操控结果;以及如果每位评审都认为某候选人比另一位候选人好,那么投票结果一定会体现这一偏好。在二战后大家都期待建立的那个美丽新世界中,阿罗的这个发现令人沮丧——设计出完美的、人人都满意的体系看似只是一个白日梦。它还说明了,尽管个体可以有一致的偏好,但是群体不能:当一个评审团中的一部分人喜欢某款车,而其他人喜欢另一款的时候,我们不能说整个评审团都更喜欢某一款车。政客们经常这样说:“选民们告诉我们他们想要……”但是这可能吗? 那么,既然投票无法确保排名的准确性,或许我们就应该直接让一群专家围坐一桌,讨论研究出谁或者什么为某某“年度最佳大奖”的得主。可是,在一群人共同商议事情的时候,同样会出现不妙的事。立场坚定和能说会道的人可以主导会议进程,进而左右群体的最终结论。更糟的是,在那种顺从度高且没人想要推翻规则的集体中,成员甚至可能会忽略现实,陷入一种叫团体迷思(或集体错觉)的困境。在这样的团体中,每个成员都竭力去支持领导所提出的方针,哪怕这么做显然是不明智、不正确甚至是轻率鲁莽的。而那些持反对意见的人则会保持沉默,并且开始质疑起自己的看法来。以至于最终,这个团体能够充满自信地做出一个在外界看来近乎疯狂的决策。 至于“顺从”是如何惑乱团体决策的?还得看美国心理学家所罗门·阿希(Solomon Asch)的从众实验。实验证实了,当团体中的一些人力捧一个明显错误的答案时,其他人甚至会质疑起自己眼前的事实。 在阿希的实验中,有一组参与者被要求判断出面前卡片上画着的竖线当中,哪一对儿竖线的长度相同。这本是一个很简单的问题——其他线的长度都相差很多。但是每组参与者中只有一位是真正的被测试者,其余的组员都是阿希找的“帮手”,他们被要求做出错误的回答——声称长度本不相等的两条竖线是相等的。出人意料的是,75%的被测试者都至少有一次在作答时,刻意选择了与帮手们相同的答案。后来,有些人回忆说,自己当时很担心固执己见会出糗。还有些人坚信,既然其他人的答案都一样,那他们肯定就是对的。 如果群体可以如此这般扭曲人们的判断,那我们就应该对那些媒体大肆宣传的“年度最佳大奖”更加谨慎。当我们想要给什么东西排名的时候,也许我们应该摒弃人为的判断。相反,我们可以使用客观数据,再用一个什么公式,把这些数据转化成精确的、看似很科学的分值,即创立一个排行榜。 ▲认知差是思考力,信息差是生产力 ▲揭示信息不对称的奥秘。 ▲打破信息差,用信息差改变人生。 ▲看清数据背后的底层逻辑,通过信息差跑赢周围的人。 ▲排行榜真的靠谱吗?根据数据的选择肯定正确吗?你看到的事实是真实的吗? ▲信息差无所不在——我们生活在大数据制造的世界里,任凭算法分析着我们是谁,是什么令我们心动。 ▲一本书了解生活中方方面面的信息差——如何休息、购物、锻炼,如何跟朋友在社交软件上交流,如何找到更好的学校、医院,甚至是我们的个性、驾车习惯或者刷牙习惯……