精准学习

精准学习
作者: (法) 斯坦尼斯拉斯·迪昂
出版社: 浙江教育
原售价: 109.90
折扣价: 71.40
折扣购买: 精准学习
ISBN: 9787572253300

作者简介

斯坦尼斯拉斯·迪昂 ●全世界具影响力的认知神经科学家之一,欧洲脑科学研究领域的领头人,世界脑科学领域大师级的人物。 ●美国国家科学院、法国科学院、英国科学院、欧洲科学院、比利时huang家科学与艺术学院等6个科学院院士,欧洲分子生物学组织成员,美国哲学会会士,法国教育部教育科学委员会主席。 ●2014年,与其他两位科学家共同获得有“神经科学界诺贝尔奖”之称的“脑奖”(The Brain Prize)。该奖项在脑科学领域地位很高、分量很重,显示了迪昂在神经科学领域过人的天赋和巨大影响力。 ●已在《自然》(Nature)《科学》(Science)等知名学术杂志上发表400多篇文章,其中70篇文章被引用超过500次,h指数高达173。是阅读、数学、意识、学习领域公认的专家。 精准学习系列:《脑与意识》《脑与阅读》《脑与数学》《精准学习》

内容简介

第一部分 什么是学习 从本质上讲,智能可以被视为将非结构化的信息转化为有用的、可操作的知识的过程。 —德米斯 · 哈萨比斯( Demis Hassabis ),人工智能公司 DeepMind 创始人 什么是学习?在拉丁语系的许多语言中,“学习”与“理解”有着相同的词根:法语为 apendre,西班牙语和葡萄牙语为 aprender……的确,学习就是抓住现实的一个碎片,捕捉它并将它带进我们的脑。在认知科学中,学习是在脑中逐步形成外部世界的内部模型。通过学习,那些触动我们感官的原始数据被转换成经过深思熟虑之后产生的想法,抽象到足以在新的场景下被重复使用,成为描绘现实的微缩模型。 脑和机器中这样的内部模型是如何生成的?在接下来的章节里,我们将回顾人工智能和认知科学关于这个问题的研究。当我们学习时,信息的表征形式是如何变化的?我们如何才能在任何有机体、人类、其他动物或机器所共有的水平上理解它呢?通过回顾工程师为了让机器学习而设计的各种策略,我们将逐步勾勒出婴儿在学习看、说和写时必须进行的惊人计算能力的清晰图景。事实上,正如我们将要看到的那样,婴儿的脑拥有非凡的能力:尽管目前的学习算法取得了成功,但它也仅仅捕捉到了人脑能力的一小部分而已。通过了解机器为什么不能理解“隐喻”,以及 人脑的什么地方使婴儿胜过了最强大的计算机,我们就能准确地定义学习是什么了。 第 1 章 学习的7个定义 什么是学习?我的第一个,也是最笼统的关于学习的定义是:学习是在脑中形成外部世界的内部模型。 你可能没有意识到,但是你的脑已经存储了数以千计的外部世界的内部 模型。它们就像微缩模型,或多或少地忠于它们所代表的现实。打个比方,我们所有人的脑中都有一张关于自己家和附近街区的思维地图。我们要做的 就是闭上眼睛,调动思维来回想它们。当然,没有人生来就拥有这种思维地 图,我们必须通过学习来获得它。 这类心理模型非常丰富,而且绝大多数是在无意识中生成的,超出了 我们的想象。例如,你有一个庞大的英语心理模型帮助你理解你所阅读的 词语,你可以猜测出来 plastovski 不是英语单词、swoon 和 wistful 是, 而 dragostan 有可能是。你的脑中还有多个有关身体的模型,用于绘制你四肢 的位置,并引导它们保持平衡。某些模型编码了你对物体的认知和你与他们 的互动,比如如何握笔、写字或骑自行车。你的脑中甚至还有记录别人思想 的模型,类似一个庞大的心理目录,里面有与你关系密切的人的信息,包括他们的外形、声音、品味和他们的怪癖。这些模型可以对我们周围的“宇宙”进行非常逼真的模拟。你有没有注意到,你的脑有时会投射出最真实的虚拟世界,在那里,你可以走动、跳舞、去到新的地方、进行愉快的对话或者感受到强烈的情感?这些都是你的梦境!令人着迷的是,我们梦境中出现的所有想法,无论它们多么复杂,都只是我们内在心理模型随意呈现的产物。 我们醒着的时候也在做真实世界的梦,脑不断地向外界投射假设和解释构成的框架。这是因为透射到我们视网膜上的每一个影像都是模棱两可的。例如,每当我们看到一个盘子时,投射到视网膜上的影像就与无限多的椭圆形兼容。我们看到的盘子是圆形的,事实上原始的感官数据是椭圆形,这是因为我们的脑提供了额外的数据,它已经了解到圆形是最有可能的解释。在幕后,我们的感官区域在不停地计算概率,只有最可能的模型才会进入我们的意识。正是脑的投射赋予来自我们感官的数据流以意义。假如没有内部模型,原始的感官输入是没有任何意义的。 学习使我们的脑能够抓住之前被遗漏的现实片段,并利用它来构建新的世界模型。这个现实片段可以是历史、生物学或城市地图等任何真实世界的存在。但我们的脑也会学习绘制我们身体内部的现实情况,就像我们学习协调我们的动作、集中注意力去拉小提琴一样。在这两种情况下,我们的脑都将一个新的外在现实内化了进来,它调整自己的回路,以适应一个之前没有接触过的领域。 当然,这样的调整必须恰到好处。学习的内核就在于它适应外部世界和纠正错误的能力。但是,当学习者在家附近迷路、从自行车上摔下来、输掉一盘棋或者拼错ecstasy时,他的脑怎么“知道”如何去更新内部模型呢?我们接下来将讲述7个关键的观点,它们是当今机器学习算法的核心。这些观点同样适用我们脑的学习,是对“学习”的7个不同定义。 学习就是调整心理模型的参数 调整心理模型有时非常简单。例如,我们怎样才能把手伸向我们所看到 的物体并抓住它呢?笛卡尔(René-Descartes)在 17 世纪时就已经推测出, 我们的神经系统一定包含将视觉输入转化为肌肉命令的加工回路(见图 1 — 1 )。你可以尝试亲自体验一下:戴上别人的眼镜,最好是一副高度数的眼 镜,抓东西;更好的方式是,戴一副能使你的视线向左偏移十几度的棱镜, 然后试着抓住物体。 1 你会发现你的第一次尝试完全失败了,因为戴着眼镜, 你的手会伸到你瞄准的物体的右边。多尝试几次,向左逐渐调整你的动作。 通过不断地尝试和失败,你的动作会变得越来越精准,因为脑已经学会了纠 正视线的偏差。现在,摘下眼镜试着抓住物体,你会惊讶地发现你的手伸错 了方向,太靠左了!(见图 1 — 1 ) 到底发生了什么事?在刚刚短暂的学习期间,脑调整了它的内在视觉模 式。此模式中对应视觉和身体方向之间偏移的参数被重新设置了。在这个通 过试错进行重新校准的过程中,脑所做的事情与猎人为了调整他的步枪瞄准 镜所做的事情类似:通过试射来调整他的瞄准镜,最终精准瞄准猎物。这种 学习非常快,几次尝试就足以校正视觉和动作之间的偏差。然而,这个新的 参数与旧的并不兼容,因此当我们摘掉眼镜恢复正常视力时,又会犯错。 不可否认,这种类型的学习有点特殊,因为它只需要调整与视觉角度相 关的一个参数,大部分的学习比这精细得多,需要调整数十个、数百个甚至 数千个参数,而我们的脑回路中有几百万个参数(每一个突触就是一个参 数)。不过原则是相同的,即学习是在无数可能的内部模型中寻找最符合外 部世界状态的可能性。 学习是什么?学习就是根据外部反债调整脑心理模型的参数。例如,a图中,学习用手指去瞄准以校正视觉和动作之间的偏差。每—次瞄准的错误都提供给脑有用的信息,继而慢慢缩小偏差。在神经回路中,虽然要校正的数字更大,但原理是—样的,辨识—个符号需要精细地调整几百万个神经联结。b图中,类似“8”的错误输出会回过头去反向传播,进而调整神经联结的数据,在下—次的尝试中改进输出。 图1—1 学习就是调整心理模型的参数 一个在东京出生的婴儿,在往后的两三年里,他的语言内部模型将不得 不调整为符合日语的模型。这个婴儿的脑就像一台机器,内含数以百万计的回路设置。听觉层面的设置决定了日语中使用的辅音和元音,及其允许 的组合规则。一个出生在日本家庭的婴儿必须知道哪些音素构成了日本语 言,以及这些音素之间的区别。例如,有一个参数是区分 R 和 L 之间的发 音,这在英语中非常关键,在日语中却无关紧要。在日语中,“Bill Clinton’s election”(比尔 ·克林顿的选举)和“Bill Clinton’s erection”(比尔 · 克林 顿的勃起)没有任何区别……每个婴儿必须掌握一组固定的参数,而这些参 数共同指定哪些类别的语音与他的母语相关。 从语音到词汇、语法到语义,每个层面的学习都重复了类似的过程。脑的组织结构是多层级的,一个模型嵌套在另一个模型中,就像俄罗斯套娃一样。学习就是用输入的数据去设置每一个层级结构中的参数。让我们看一个高级范例—语法规则的习得。在英语和日语的学习中,婴儿必须学会的一 个关键是词序。在一个有主语、谓语和直接宾语的标准句子中,英语句式为“主语+谓语+宾语”:“John+eats+an apple (约翰吃了一个苹果)。然而在日语中,最常见的句式为“主语+宾语+谓语”:“约翰+一个苹果+吃”。值得注意的是,这个日语句式中还会因介词而改变。比如,“My uncle wants to work in Boston”变成了“Uncle my,Boston in,work wants”。这句话就变得与《星球大战》中尤达大师所说的话一样难懂。a但对一个讲日语的人 来说,这句话一点问题也没有。 有趣的是,这种倒装句并不是相互独立的。语言学家认为它们来自一个名为“中心词位置”的参数:一个短语的中心词,在英语中总是位于第一位(在巴黎,我的叔叔,想生活),但在日语中被放在了最后(生活想,叔叔我的,巴黎在)。这个二元参数可以区分许多语言,甚至包括一些历史上没有关联的语言,例如纳瓦荷语遵循的规则就与日语相同。孩子为了学习英语或日语,必须学会如何设置他内部语言模型中的中心词位置参数。 学习是在利用组合爆炸 语言的学习真的可以被简单地归结为一些参数吗?如果这很难让人信服,那是因为我们无法想象当我们增加可调参数时,会产生如此多的可能性。这就是所谓的“组合爆炸”( combinatorial explosion) — 当你将极少数的可能性参数组合在一起时,参数的数量就会呈现指数级的增长。 假设世界上所有语言的语法可以用大约50个二元参数来表示,就会产生250种组合,也就是超过1 000万亿种可能的语言,或者说1后面跟着15个0! 目前世界上的3000种语言的句法规则都能很轻松地被放入这个巨大的空间。然而,在我们的脑中,可调节的参数不只有50个,其数量大得惊人:80多亿个神经元,每个神经元大约有1 万个突触相互联结,联结的强度各不相同,所创造的心智表征空间可以说是无限大的。 人类语言的各个层级都在大量利用这些组合。例如,脑词库是我们掌握的单词以及它们的内在模式。英语母语者一般会掌握大约 5 万个单词。这些单词构成了一本巨大的词典,但我们只花了大约 10 年时间就学会了它们,这是因为我们可以分解学习问题。假设这 5 万个单词中的每个单词平均只有 2 个音节,每个音节由 3 个音素组成,这些音素来自英语的 44 个音素的 组合,那么这些单词的二进制编码需要不到 200 万个基本的二元选择(即“位”,其值是 0 或 1 )。换句话说,我们脑词库中的所有知识都可以放在计算机中一个 250 千字节(每个字节包含 8 个位)的小文件夹中。 如果我们排除掉单词的多义的问题,脑词库可以被压缩到更小的容积。随机抽取6个字母,如 xfdrga,它们无法组成英语单词,真正的单词是由多 个音节按一定规则组成的,像构建金字塔一样。语言的各个层级都是如此, 句子是词的规则集合,词是音节的规则集合,音节是音素的规则集合。组合 既是巨大的(可以在几十个甚至数百个元素中选择),同时又是有限制的(只 有某些特定组合才会成立)。学习一门语言就必须要知道在各个层级上界定 这些组合的参数。 总而言之, 人脑通过创建一个多层分级的模型来分解学习问题。 这在语 言学习中尤其明显—从基本的音素到整个句子,甚至是一整段话。但所有 的感觉系统中都能重现同样的层级分解原理。一些脑区只负责低层级的形 态,它们在非常短的时间内通过一个非常小的空间窗口来观察世界,从而分 析最细微的形态。例如,初级视觉区域是大脑皮层中第一个接受视觉输入的 地方,该区域每个神经元只分析视网膜的一小部分。它通过“针孔”窥视 外面的世界, 因此只能发现非常低层级的规律,如是否存在会移动的斜线 等。数以百万计的神经元在视网膜的各个地方做着同样的工作,它们的输出 成为下一个层级的输入,从而检测“规则的规则”,以此类推。在每下一个 层级上,规模都在扩大。大脑由此逐渐在越来越大的时间和空间范围内寻找 规律,从这种层级结构中衍生出检测日益复杂的对象或概念的能力,从一条 线、一根手指,到一双手、一个手臂,到一个人的身体……两个,两个人面 对面,两个人面对面在握手……原来这是特朗普和马克龙的第一次会面! 在人类面临人工智能严峻挑战的今天,提供了一个再次激发人类潜力的学习方式。 ●基于人脑有效学习的四大核心支柱,为教育的应用构建了底层逻辑。 ●解答了人脑相较于现行人工智能的独特优势。为人类与人工智能互学习、共进化指明了方向,为教育、学习、医学等知识行业、人工智能研究带来了关键应用指导。 ●名家译作。华东师范大学教育神经科学研究所副主任、《教育生物学杂志》执行主编周加仙领衔翻译! ●大师推荐。中国科学院院士杨雄里,中国科学院院士唐孝威倾情做序。清华大学基础科学讲席教授、北京智源人工智能研究院首xi科学家刘嘉,北京师范大学认知神经科学与学习国家重dian实验室教授、长江学者特聘教授薛贵,复旦大学类脑智能科学与技术研究院副院长王守岩,北京大学心理与认知科学学院副教授、博士生导师孟祥芝,北京师范大学教授、博士生导师,儿童脑智发育与学习促进研究领域专家李燕芳倾情推荐! ●湛庐文化出品。