分类思维
作者简介
[希]康斯坦丁诺斯·V. 卡齐科普洛斯(Konstantinos V. Katsikopoulos),英国南安普顿大学研究与企业商学院副院长,行为科学教授,曾为德国马克斯·普朗克人类发展研究所适应性行为和认知中心的研究员和副主任。 [土]奥祖尔·希姆谢克(?zgür ?im?ek),巴斯大学计算机科学系副系主任、教授,曾为德国马克斯·普朗克人类发展研究所适应性行为和认知中心的研究员。 [德]马库斯·巴克曼(Marcus Buckmann),德国马克斯·普朗克人类发展研究所博士,英格兰银行高级分析部的高级数据研究分析师。 [德]格尔德·吉仁泽(Gerd Gigerenzer),柏林-勃兰登堡科学院与德国科学院院士,社会心理学家,德国马克斯·普朗克人类发展研究所适应性行为和认知中心前主任。
内容简介
引言:为什么研究现实情境中的分类 对确定性的需求是人类的天性,然而,这也是人类智慧的缺点。如果你要在某个未知天气的日子带孩子们野餐,他们会让你就那天究竟是天气晴朗还是下雨给出武断的答案,当你不能确定时,他们会对你感到失望。 伯特兰·罗素 想要将某个人归入某一类别(朋友或敌人;值得信任或不值得信任)是人类与生俱来的天性,这种渴求为智力发展提供了基础。如果我们不去构成类别,我们就只能注意到个例,而触及不到任何总体性的思考。然而,我们是如何进行分类的呢?以及我们应该如何进行分类呢? 心理学家倾向于关注那些明确的环境,在那样的环境中,待被分类的所有实体,其所有特征(包括概率)都是确定的。为了实现实验控制的目标,典型的实验室实验需要人们将一些人造物体(如颜色、大小各不相同的圆形和三角形)进行分类,即根据精确已知、数目固定的几个维度进行分类。 与此相反,本书离开了实验室的确定性,而着眼于现实中根本的不确定性。与典型的心理实验不同,现实情境指的是现实世界的环境,在这样的环境中,未来是不可知的,而且不确定性不能有意义地简化为概率。这种不确定性并不必然适用于所有现实世界的环境,例如赌场里的玩家是可以计算出获胜概率的。然而,在大多数其他情况下,不确定性普遍存在,无论是选择应该投资的金融产品还是选择最合适的结婚对象。现代贝叶斯决策理论之父吉米萨维奇(Jimmie Savage)认为,即使是计划野餐这样的事情也不在他的理论范围内,因为人们无法提前知道所有可能发生的事件。我们可能首先就无法获得与事件相关的信息,甚至这些信息每天都在变化。这提出了一个问题,即现实情境中的分类是否能够在实际上基于科学,对此我们的回答是肯定的。本书介绍了一些精确的、正式的分类模型,在应用心理学其他一些有趣且有用的研究中,我们通常看不到这些分类模型的身影。正如我们将看到的,这些正规的模型与从业者们的专业知识很好地结合在了一起。 机器学习的研究人员也研究分类问题。为应对实验室实验之外的复杂情况,他们已经开发出了神经网络和随机森林等工具。这些工具能够应对复杂性和不确定性,不过它们通常并不透明。例如,当基于这些工具搭建的系统用于资金问题或应用于法庭时,贷款申请人和被告人通常弄不明白,为什么他们会被归类为不可信的那类人,有的贷款申请被拒,有的不准予以保释。在大多数情况下,此类系统不仅对银行、法官不透明,对创造它们的工程师来说,也是不透明的。 本书致力于提高不确定性环境中的透明度,为读者提供了易于理解、记忆、教授和执行的工具。这些工具让相关从业者可以在手边没有花哨的机器学习程序时(例如身处事故现场或自杀式袭击现场)做出快速而准确的决策。本书还认为机器学习应首先构建透明的算法,而不是事后再去试图解释不透明的算法。 认知心理学和机器学习之间存在着另一个深刻的区别。心理学主要是描述性的,它回答人们实际上是如何进行分类的问题,而机器学习是规范性的,它回答的是人们应该如何进行分类的问题。本书整合了“是”和“应该”这两个方面,我们关注一些启发式,这些启发式通常既具有描述性又具有规范性,也就是说,它们描述了有经验的相关从业者实际都做了什么事情,同时还对相关从业者可以如何改进工作实践提出了建议。 我们在本书中呈现的分类工具属于有限理性的范畴,“有限理性”这个术语是由赫伯特·西蒙(Herbert Simon)在20世纪50年代创造,他是人工智能的创始人之一,也是认知革命的先驱之一。有限理性的现代研究在西蒙的传统中就是快速节俭启发式程序,我们呈现的这些分类工具正是基于此程序。快速节俭启发式是对认知心理学和机器学习中现有模型的有益补充,使人们可以在不确定性环境中进行快速、透明和准确的分类。 本书为认知心理学和机器学习的相遇提供了一个接触点,展示了如何将心理学的分类研究扩展到不确定的现实世界中,还展示了如何从最初的认知原则(人类计数和排序的能力)中推导出简单、准确的分类规则。此外,本书有助于实现可解释化的机器学习。快速节俭的分类规则很容易理解和应用。 在本书中,我们提出了两个关键论点: 简单规则在现实情境中表现良好。在国际象棋、围棋或人脸识别等稳定的情况下,如果有大量数据可用,复杂算法的表现优于快速节俭启发式。相比之下,在现实情境中,未来是不确定的,而且未来可能以一种不可预测的方式不同于过去,无论可用数据规模是大是小,简单的启发式都可以胜过复杂的方法,我们称此为“不稳定世界原则”。 透明度是一个关键值。我们的生活越来越受到算法的影响,这些算法根据公民的信誉、健康状况以及社会和政治态度对其进行分类,其底层逻辑通常是不透明的,无论这是算法固有的不透明属性还是出于保护商业秘密的宗旨。而另一方面,快速节俭启发式从设计上就是透明的。在健康、财富和司法等敏感领域,理解算法的能力对于身处参与性民主制度的公民来说是必不可少的。不同于机器学习某些部分的共识,即假设最准确的算法一定既是本质上复杂的又是不可解释的,我们表明,透明的算法通常与黑匣子模型一样准确,我们称此为“透明满足准确原则”。 在本书中,我们证实了这两个论点可以一同发挥作用。我们并不是在使用难以理解的复杂算法与使用几乎不准确的简单算法之间做选择。在现实情境中,简单、透明并不是准确的对立面。 本书德国马普所适应行为与认知中心主任、副主任和其他研究员集体智慧的结晶。 “有限理论”概念是由诺贝尔奖获得者、心理学家、经济学家赫伯特?西蒙所提出,指我们所能加工的信息数量是有限的,认知上具有局限性,因此决策过程的理性是有限的,人们的信息加工系统发展了适应性的策略,可以在搜寻、处理信息需要的认知资源和选择绝对的最优方案之间进行权衡。 在此基础上,由德国马克斯·普朗克人类发展研究所以吉仁泽(Gerd Gigerenzer,亦译吉戈伦尔,本书的作者)教授为代表的适应行为与认知中心提出了生态理性(ecological rationality),即与环境要求相结合的理性。其基本思想是人类和动物的理性是有限的,当人们面对复杂的问题时人们不仅不能,也不必在完全认清事物本质的情况下才作出判断和决策,也就是说这种理性观要求人在面对复杂的问题时可以采用直觉的、简单的和可行的方式来处理问题。这时只要做到人的理性能够与现实环境(包括自然和社会环境)的要求相匹配,从生态的角度看就已经足够了,这种理性就称“生态理性”。 本书系统讲解在“有限理性”基础上提出的“生态理性”所发展出的快速节俭分类方法,认知心理学的理论和机器学习相结合,展示了如何将心理学的分类研究扩展到不确定的现实世界中,展示了如何从最初的认知原则(人类计数和排序的能力)中推导出简单、准确的分类规则,让你在信息有限的现实事件中做出合理决策。此外,本书将机器学习的原理通过简单易懂的文字介绍给读者,使读者可以在工作学习中科学、精准应对分类和决策问题。