智能革命(迎接人工智能时代的社会经济与文化变革)(精)

智能革命(迎接人工智能时代的社会经济与文化变革)(精)
作者: 李彦宏
出版社: 中信
原售价: 68.00
折扣价: 43.60
折扣购买: 智能革命(迎接人工智能时代的社会经济与文化变革)(精)
ISBN: 9787508673219

作者简介

李彦宏,百度公司创始人、董事长兼首席执行官。 1991年,李彦宏毕业于北京大学信息管理专业,随后前往美国布法罗纽约州立大学完成计算机科学硕士学位,先后担任道·琼斯公司**顾问、《华尔街*报》网络版实时金融信息系统设计者,以及**知名互联网企业——Infoseek公司**工程师。李彦宏所持有的“超链分析”技术专利,是奠定整个现代搜索引擎发展趋势和方向的基础发明之一。 作为坚定的技术信仰者,李彦宏是*早敏锐意识到人工智能潮流将兴的企业家之一,并果断带领百度提前布局、大力投入这一前沿领域。目前,百度已经成为站在世界人工智能产业之巅的中国企业之一,其在人工智能的研发和商业应用上取得的成果令世人瞩目。

内容简介

“智能”已换代 如果人工智能的启蒙阶段可以称为1.0时代的话 ,那么现在很明显已经大步进入2.0时代了,机器翻 译就是典型案例。过去的机器翻译方法就是基于词和 语法规则进行翻译——人类不断地把语法规则总结出 来告诉机器,但却怎么也赶不上人类语言尤其是语境 的多变,所以机器翻译总是会出现诸如把“how old areyou”翻译成“怎么老是你”的笑话。 后来出现了**T(统计机器翻译),基本思想是通 过对大量的平行语料进行统计分析,找出常见的词汇 组合规则,尽量避免奇怪的短语组合。**T已经具有 机器学习的基本功能,有训练及解码两个阶段:训练 阶段就是通过数据统计让计算机构建统计翻译模型, 进而使用此模型进行翻译;解码阶段就是利用所估计 的参数和给定的优化目标,获取待翻译语句的*佳翻 译结果。 **T研究在整个业界已经持续了二十多年,对于 短语或者较短的句子,翻译效果显著,但是对于较长 的句子翻译效果就一般了,尤其是对语言结构差异较 大的语言,例如中文和英文。直到近几年NMT(基于神 经网络的翻译)方法崛起。NMT的核心是一个拥有无数 结点(神经元)的深度神经网络,一种语言的句子被向 量化之后,在网络中层层传递,转化为计算机可以“ 理解”的表达形式,再经过多层复杂的传导运算,生 成另一种语言的译文。 但是应用这个模型的前提是数据量要大,否则这 样的系统也是无用的。像百度和谷歌这样的搜索引擎 ,可以从互联网上发现和收集海量的人类翻译成果, 把如此巨大的数据“喂给”NMT系统,NMT系统就可以 训练和调试出比较准确的翻译机制,效果要好于**T 。中文和英文之间的双语语料信息储备越多,NMT的 效果就越好。 **T以前用的都是局部信息,处理单位是句子切 开以后的短语,*后解码时将几个短语的译文拼接在 一起,并没有充分利用全局信息。NMT则利用了全局 信息,首先将整个句子的信息进行编码(类似人在翻 译时通读全句),然后才根据编码信息产生译文。这 就是它的优势,也是其在流畅性上*胜一筹的原因。 比如,翻译中有一个很重要部分是“语序调整” 。中文会把所有的定语都放在中心词前面,英文则会 把修饰中心词的介词短语放在后面,机器常混淆这个 顺序。NMT在语序学习上的优势带来了它翻译的流畅 性,尤其在长句翻译上有明显优势。 传统的翻译方法也不是一无是处,每一种方法都 有其擅长的地方。以成语翻译为例,很多时候有约定 俗成的译文,不是直译而是意译,必须在语料库中有 对应内容才能翻译出来。如今互联网用户的需求是多 种多样的,翻译涉及口语、简历、新闻等诸多领域, 一种方法很难满足所有的需求。因此百度一直把传统 的方法如基于规则的、基于实例的、基于统计的方法 与NMT结合起来向前推进研究。 在这种机器翻译的模式中,人类要做的不是亲自 寻找浩繁的语言规则,而是设定数学方法,调试参数 ,帮助计算机网络自己寻找规则。人类只要输入一种 语言,就会输出另一种语言,不用考虑中间经过了怎 样的处理,这就叫作端到端的翻译。这种方法听起来 挺神奇,其实概率论里的贝叶斯方法、隐马尔科夫模 型等都可以用来解决这个问题。 以资讯分发当中的贝叶斯方法为例,可以构建一 个用概率来描述的人格特征模型。比如男性读者模型 的特征之一是在阅读新闻时点击*事新闻的概率是40 %,而女性读者模型是4%。一旦一个读者点击了* 事新闻,中的贝叶斯公式就可以逆推这个读者的性别 概率,加上这个读者的其他行为数据,综合计算,就 能比较准确地判断读者的性别以及其他特征。这就是 数学的“神奇”。当然,计算机神经网络使用的数学 方法远不止这些。 类似机器翻译的人工智能技术方法的前提是数据 量足够大。互联网提供了以前科学家梦寐以求却难以 得到的海量数据。互联网诞生的初衷是为了信息沟通 方便,结果带来了信息**,信息**又促进了人工 智能技术的发展。 再以下棋为例。1952年瑟·萨缪尔编写了跳棋程 序,水平能达到业余高手程度。跳棋规则比较简单, 计算机在这方面有人类很难比拟的优势,但是**象 棋就难多了。百度总裁张亚勤在微软担任研究院院长 的时候,请来中国**计算机才子许峰雄,他在IBM( **商业机器公司)的时候开发了名噪一时的**象 棋机器人“深蓝”。20世纪90年代的人工智能代表非 “深蓝”莫属,“智慧”集中在一台**计算机上[ 使用了多块CPU(中央处理器)并行计算技术],连续战 胜人类**象棋高手,并终于在1997年战胜了人类国 际象棋**卡斯帕罗夫。不过富有意味的是,比赛之 后不久,IBM就宣布“深蓝”退役了。张亚勤对许峰 雄说,“你去做围棋吧,等能下赢我的时候再来找我 ”,但直到他离开微软,许峰雄都没有再来找过他。 “深蓝”本身面临一些无法突破的瓶颈,虽然可 以处理**象棋棋盘上的运算,但面对围棋棋盘上达 到宇宙数量级变化的可能性,只能望洋兴叹。基于决 策树算法,穷举一切走子可能性的模式超出了计算机 的承载能力,虽然算法不断优化,但还是无法突破计 算瓶颈。以围棋为代表的东方智慧,面对人工智能似 乎可以稳若泰山,但一个新时代正在来临。P10-13