爱丽丝计划:人工智能的现在与未来
作者简介
作者:谷口忠大 1979年出生,京都大学精密工程博士。现任立命馆大学信息科学与工程学院教授、攻下公司首席访问工程师。创建了机器人符号学这一学科,曾出版多部与人工智能有关的学术及科普图书。 译者:丁丁虫 中国科普作家协会会员,上海市科普作家协会理事、副秘书长,科幻专业委员会主任,译有《蜡烛的故事》《人类的未来、AI的未来》《超有趣科学项目大图解》《植物通史》等。
内容简介
“智能”是什么? 人的智能非常神奇。刚出生时只会“哇哇”哭着寻找奶水的生命,一年就能行走,两年就能说话,四年就能上幼儿园,开始和小伙伴们玩耍。上了小学,会学习语文、数学、科学、社会等各种知识,也会在体育课上踢足球、玩躲避球。再往后,又会成长为此时此刻正在写这本书的我,以及正在读这本书的各位。人,总会在成长过程中不断丰富并提高自己的智能。 那么,智能是什么?具有代表性的日语词典《广辞苑》第七版中,将“智能”解释为 :(1)知识与才能 ;(2)智力的程度 ;(3)适应环境、处理新问题的智慧和能力。但这只是一本词典对“智能”这个词的解释,并不是学术界关于智能的一致认识。不妨将之理解为,“人们在使用‘智能’这个词的时候,通常指的是这些意思”。因此在这里,我想对这几点做一些探讨。第一,以“知识”与“功能”为中心来解释智能;第二,智能有“程度”之分 ;第三,“适应环境”也属于智能的重要因素。 差不多二十年前,我读研究生的时候需要选择研究课题。青春时代,我曾经苦思“自由意志的存在”这种哲学性问题 ;研究生时期,又琢磨起人类的“智能”问题。 “所谓‘我在思考’,到底是指什么?” “人明明不能窥探他人的头脑,为什么可以交流?” “‘我’这个智能所认识的世界,真的存在吗?” 上述问题也许应该属于哲学或心理学的范畴。但是,就读于工学部机械工程领域的我却感觉,身处机械工程和信息工程的世界,才有方法接近人类的“智能”。那就是通过研究机械的“智能”去推导人类“智能”的形成,即建构性的方法。它的基本思路是通过建构人工智能和机器人这样的 Model(模拟真实对象的模型),获得对于目标对象的理解。 即使使用“建构人工智能”的说法,“人工智能”一词也可以具有多种含义。“没人真的知道什么是智能”,正是人工智能领域的宿命问题之一。 熟悉科幻动画片和真人影视剧的非专业人士,倾向于把人工智能和 AI 视为“拥有心灵且类人的智慧”,也就是说,不是当今技术水平下的人工智能,而是与人类的智能水平别无二致的人工智能。至于我所探求也是在本书中探讨的,同样不是现代的人工智能技术,而是后者所述的“智能”。 人工智能越来越像人吗? 2010 年代的人工智能技术发展,让许多技术——图像识别、语音识别、机器翻译等——逐渐渗透我们的日常生活。有人也把它们称为 AI 技术。AI 是 Artificial Intelligence 的缩写,意为人工智能,本书对这两个词不做区别。 “人工智能”一词听起来非常高端,但现在,其实连小学生都在使用人工智能技术。在故事中,悠翔通过和智能音箱的对话获取信息、欣赏音乐(语音识别、语音合成、信息检索);把英语网页一键翻译成日语(机器翻译);用对讲门铃的摄像头识别来访的客人(图像识别);用监控摄像头识别悠翔自己的行动。 一旦人工智能技术渗透生活,大家习以为常,它们便成了几乎没有存在感的工具。这些早已有之的技术在 2010 年代的发展期,即第三次人工智能浪潮期,由于性能的飞跃提升而得到了广泛应用。支撑这些技术的正是“让计算机从数据中学习”的机器学习,其基础是深度学习。 那么,像这样的现代人工智能与人类智能的差异是什么? 丢出结论很简单 :“今天的人工智能没有到达人类的智能水平!”如果讨论到此为止,那就没有什么意义,讨论差异不能仅以对于优劣评价作为收尾,重要的是深入细节。 事实上,如果将刚才的“人工智能”按照字面意思理解为“所有的人工智能”和“智能的所有方面”,那就错了。因为照这样理解的话,那么人工智能非但不是“没有达到人类的智能水平”,反而还有无数“超越人类智能水平”的案例。 Google DeepMind 开发的 AlphaGo,于 2015 年 10 月首次在分先对局 b 中战胜人类的专业围棋选手。再倒推约 20 年,IBM的 Deep Blue 战胜过国际象棋世界冠军卡斯帕罗夫。其实不用列举这些戏剧性的例子,就笔者而言,我的知识问答战胜不了Amazon 的 Alexa 和 Apple 的 Siri,四则运算的速度也胜不过区区几块钱的电子计算器。至于机器翻译,近年来的表现也相当优秀。 DeepL 的英日互译正确率已经超过了大多数人,考虑到人会疏忽大意,DeepL 更是比笔者优秀多了。此外还有报告指出,在图像识别方面,针于限定类型的物体,人工智能的识别精度也胜过了人类。人工智能已经“超越了人类的智能水平”。 但在给出这些案例的时候,人们往往会说 :“我说的‘人类的智能水平’不是这个意思!”那么,应该是什么意思?这需要我们抱起胳膊好好想想,因为这正是人工智能的关键问题。 例如,类似踢足球、打篮球那样需要实时识别真实世界、控制身体的运动,对于现代的人工智能来说,依然是相当困难的任务。 重新审视人工智能取得成功的领域,我们会发现,无论是多么复杂的问题,它们或是能在计算机中被明确定义规则或状态,比如围棋、国际象棋、四则运算 ;或是能通过检索网络数据库获得答案,比如知识问答 ;又或是能将传感器捕获的信息匹配或转换成某种文字符号或文字序列,比如图像识别、语音识别。这些成功都限定在可能性有限的封闭世界中。 很早以前,计算机就能高速处理四则运算,也能访问网络上的大量知识并回传用户所需的信息。2010 年代的人工智能技术发展,在此基础上又令计算机拥有了处理图像、声音、人类手写文字等数据(即“模态信息”)的能力——这类数据并不是为了让计算机理解其内容而准备的,计算机原本也不擅长处理它们。 人们平时所写、所说的自然语言中,充满了不确定性。既没有完全遵守既定的语法,也充满了省略和语法错误。取自真实世界的照片,也不可能出现完全相同的图像。哪怕是 1280 像素 ×720 像素的标准尺寸也约有 92 万个像素,每个像素又都有自己的 RBG(红绿蓝)值,一个图像便共计约有 276 万个数据。 如此巨量的数据,自然不可能因为巧合而保持一致。 计算机能够处理充满了扰动且具有复杂性与不确定性的真实世界的模态信息,便是 2010 年代人工智能技术的核心进步。为了处理这类数据所采用的从大量数据中学习的技术,就是机器学习 ;将大量数据所包含的建构性信息提取出来的方法,就是深度学习。 比如,AlphaGo 的本质在于,针对几乎不会出现相同情况的围棋盘面局势,它能够推算出相应的评价值 b。围棋盘的每个位置都有三种状态,即“有黑子”“有白子”“没有棋子”。19×19棋盘共有 361 个交叉点,其形态与图像非常相似,后者同样用数值来记录每个像素。围棋的难点之一在于通过棋子分布分析当前战况,这与图像识别的难点极为相似。 2010 年代的人工智能技术进步,确实令计算机得以处理人类擅长的(或者说是在无意识中进行的)图像识别、语音识别之类的模态信息,也令其得以应用在诸如棋类对局的局势识别等领域。在这一意义上,它确实缩小了人类智能与人工智能的差异。 人工智能的感情和意识 “人工智能有感情吗?”“人工智能有意识吗?” 在大学做人工智能的入门性讲座,或者向拜访研究室的学生介绍研究内容时,上述问题是学生们最常问的。 这两个问题的回答是相似的,它们与涉及“智能”的许多讨论中隐含的问题也有共通之处,这是关于内观与观测(或观察)之间有什么差异的问题。在回答前面这两个问题的时候,至少需要明确两点 :第一,人工智能是否实际具备感情和意识 ;第二,即使人工智能具备感情和意识,我们又从何判断。 关于第二个问题,需要指出的是,这样的判断即使对于人类来说也是极其困难的。我们通过内观——也就是观察自己的内心,得知自己具有感情和意识。而在大多数情况下,我们会通过这样的内观感觉到感情和意识,并从这样的经验中理解它们是什么。 而第一个问题是,“对于我们自身所感受到的那些东西,人工智能是否具有和它们同质的东西?”即使对方是人类,我们又如何能从外部观测并断定,我们的邻居所具有的东西,和我们自身所具有的感情与意识同质呢?这是所谓“他心问题”的传统哲学问题。换言之,上述问题本身就包含着根本性的哲学论题。 第一个问题在某种意义上是技术性的,不过同时也会继承第二个问题的困难之处。也就是说,“不知道制造什么才算是制造感情和意识”。例如,早期曾经有一些程序,内部定义了表示“感情状态”的变量,作为机器人的内部状态。变量值为 1 表示“喜悦”,2 表示“愤怒”,并让机器人将这些表情表露出来。但是对于本节开头提出那些问题的人而言,用这样的回答来证明“人工智能具有感情!”显然是不会令人信服的。 实际上,这种关于内观与观测间差异的问题,潜藏于所有的智能研究中。我们通过内观来了解自己的智能,同时它会通过行为表现出来,让人得以从外部观测。由于内观很难做到,所以很多时候我们都是基于这些观测来研究人工智能。也就是说,我们将研究的“智能”归结为可以在外部判断其成功与否的“功能”将之限定在这个范围内推进研究。为了人工智能研究中获得成果,这也是方法论上的元约束(meta-constraint),而这终究与功能主义的观点——通过从外部看到的“功能”来理解智能——相关联。 简单来说,从功能主义的视角看来,由于其主观的特性,一般认为很难处理感情和意识。那么,在人工智能的技术开发语境下讨论它们,是否就是无意义的呢? 其实未必。如果需要创造自律性的智能,那么即使是在它“是否有用”的意义上,感情和意识的问题也是值得讨论的。在本书中,通过爱丽丝这样的自主人工智能和她的故事,展现出它的具体面貌。在这里,关于故事中爱丽丝所展现的人工智能的感情和人类的感情,我想介绍两个观点。 首先,是对于持续活动的自主主体而言的感情。爱丽丝经常做出自发行动。例如,她想要塑料瓶,也会说要自己去拿。在河岸的场景中她保护了悠翔,用身体去撞神崎的父亲。如果没有这样自发的动作,只会等待他人的指示,那么爱丽丝只能算是他律主体。自主主体必须具有这种由自发采取行动的动因。毫无疑问的是,我们每个人身上都存在这样的动因。很多动因或是某种欲求,而支撑它们的大概就是所谓的“情感”。 在人工智能领域,已经有了本书中介绍过的强化学习中的利益最大化行为、好奇心、能动探索等观点。但我不认为它们能够充分解释爱丽丝的行动。实际上,如果要创造爱丽丝这样的主体,那么为了恰当地产生出那些自主行动,需要讨论的是扮演起整合角色的“情感”系统,它能将疼痛或快乐之类的内部感知、情绪乃至社会性价值联系在一起。机器人情感的问题可以聚焦于如何制造人工智能的自主性这个课题上,从而摆脱思辨性质的探讨。 其次,是他人眼中的感情。我们之所以认为“他人有感情”,不是因为证明了他人也有与我们自内观中获得的感情同质的西,而是因为我们相信“他人也有感情”,并且从这样的出发去解释他人的表情和行为。换句话说,我们认为“他人有感情”,这种想法本身就是有问题的。对照本书的故事,等同于认为“爱丽丝具有感情”。 从这个观点上说,笔者无法断言本书中的爱丽丝是否具有感情。此外,我也并不打算主张,“只要从外表看起来具有感情就足够了”。不过,持续表现出自然的、看起来具有感情的行为,那么从他人的视角来看,自然倾向于将其解释为“具有感情的主体”,并引发出对应着“具有感情的主体”所采取的行动。悠的父亲和蒂贝博士没有把爱丽丝是机器人的事实告诉悠翔,可能也包含了这层意义。在这个意义上,感情和意识既是存在论的讨论对象,也具有社会性建构概念的侧面,可以被如此描述 :“大家都是这么想的,所以它就是有感情的。” 无论如何,我认为这些探讨,即使是以不具备身体的模式处理设备(转换“函数”)的人工智能为对象进行讨论,也无法获得明确的答案,它们应当是连同机器人的自主性共同考虑的问题 出人意料的青春故事 X 鞭辟入里的AI科普 某个遥远滨海小镇最普通的夏日,闭门不出的少年与一言不发的少女相遇了 在喧闹的生活背后,关于人工智能未来的图景正徐徐展开