![知识图谱与深度学习(全彩印刷新时代技术新未来)](https://file.mhuoba.com/shop/3/100021/picture/book/20231113/15/20231113151257596.jpg)
出版社: 清华大学
原售价: 99.00
折扣价: 71.30
折扣购买: 知识图谱与深度学习(全彩印刷新时代技术新未来)
ISBN: 9787302538523
\\\\\\\\知识 ” 二字,早在甲骨文中就已经出现:\\\\\\\\知 ” 造字本义是\\\\\\\\谈论和传授狩猎作战的 经验\\\\\\\";\\\\\\\\识 ” 造字本义是\\\\\\\\辨识指认武器\\\\\\\"。后来《说文解字》将\\\\\\\\知 ” 释义为\\\\\\\\从口从矢, 知理之速,如矢之疾也\\\\\\\",大意是\\\\\\\\明白道理的人说话如同射箭一语中的\\\\\\\"。古代\\\\\\\\知识 ” 尚指认识的人或事物,进入2 0 世纪,\\\\\\\\知识 ” 有了现在的含义,《现代汉语词典》释义为 \\\\\\\\人们在社会实践中所获得的认识和经验的总和\\\\\\\"。在中国文化中,人类的智慧从来与知 识如影随形,\\\\\\\\知 ” 和\\\\\\\\智 ” 两字经常通用,孔子说\\\\\\\\知之为知之,不知为不知,是知也\\\\\\\" , 最后一个\\\\\\\\知 ” 即通\\\\\\\\智 ” 字。 知识是人类智能的象征。知识对人工智能而言同样具有重要意义。自195 6 年达特茅 斯研讨会首次提出人工智能以来,在多年的发展历史中,知识一直是人工智能的核心命 题。实际上,作为人工智能学科的思想来源之一,英国著名哲学家伯特兰.罗素等倡导 创立的分析哲学,就致力于采用各种形式化手段来探讨人类对世界的认识(即知识),现 在计算机科学的重要理论基础数理逻辑就起源于此。早期人工智能研究多关注通用搜索 机制来解决智能问题,但MI T 著名学者约翰.麦卡锡早在195 8 年就发布了\\\\\\\\有常识的 程序\\\\\\\",首次在系统中考虑了关于世界的一般知识(即常识)。由于简单的搜索和规则方 法无法解决大规模的困难和复杂问题,2 0 世纪7 0 年代很多学者转而解决专门领域的智 能任务,以斯坦福大学著名学者爱德华.费根鲍姆为首的学者通过收集领域专业知识研 制了各类\\\\\\\\专家系统\\\\\\\",在分析化学、医疗诊断等领域取得了喜人成绩。费根鲍姆在197 7 年发表文章,正式提出\\\\\\\\知识工程 ” 的思想,从此,以知识表示、获取和应用为主要内容 的知识智能成为人工智能的重要研究方向。 进入2 1 世纪,人工智能在数据和计算的双重加持下突飞猛进。在知识智能方面,201 2 年搜索引擎巨头谷歌(Google)发布了知识搜索产品||谷歌知识图谱(Googl e Knowledg e Graph),提出\\\\\\\\Things,No t Strings ” 的理念。对于用户输入的查询,谷歌搜索引擎将不 止返回匹配查询关键词的相关网页,还会根据查询中提及的人名、地名、机构名等实体 知识图谱与深度学习 | 信息,展示这些实体的相关结构化信息。如图1. 1 所示,用户输入\\\\\\\\姚明 ” 时,谷歌搜索 引擎不仅返回相关网页,而且会直接展示姚明的生日、身高等信息。在知识图谱的支持 下,谷歌搜索引擎还能够回答用户提出的一些简单问题,如\\\\\\\\姚明的生日是哪天? ” 等, 显著提升搜索引擎的用户体验,因此微软必应、百度、搜狗等各大互联网公司纷纷推出 知识搜索功能。与此同时,语音对话助手和智能音箱等新兴服务形态的出现,以及人工 智能技术与医疗、教育、金融、法律等垂直领域的深度结合,点燃了人们对大规模知识 图谱及在此之上的智能问答和推理等应用的旺盛需求,知识智能再次成为人工智能领域 的热点方向。 图1. 1 谷歌知识图谱样例 1. 1 知识图谱简介 如前所述,\\\\\\\\知识图谱 ” 本是谷歌知识搜索功能的产品名称,由于这个名字实在贴切 上口,被学术界和工业界广泛使用,成为各类结构化知识库的统称。知识图谱,就是将 人类知识结构化形成的知识系统,其中包含基本事实、通用规则和其他有关的结构化信 息,可用于信息检索、推理决策等智能任务。知识图谱是人工智能研究和智能信息服务 的基础核心技术,能够赋予智能体精准查询、深度理解与逻辑推理等能力,被广泛运用 于搜索引擎、问答系统、智能对话系统及个性化推荐等知识驱动的任务。 第 1 章绪论3 | 为了高效地储存与利用结构化知识,人们结合专家手工标注与计算机自动标注等方 式 , 面向开放领域和垂直领域构建了各种大规模知识图谱 , 如WikiDat a [188]、Free bas e [15]、DBpedi a [4]、YAG O [81 ] 及WordNe t [133 ] 等经典的知识库。以WikiDat a 为例,截至 201 9 年年初,其已经包含 5 70 0 多万个实体。与此同时,国内外各大互联网公司也均有知 识图谱产品,如谷歌(Googl e )知识图谱、百度知心、搜狗知立方和微软(Microsoft)Bin g Sator i 等。 如果按照类型划分,知识图谱可以包含语言知识、常识知识、世界知识、认知知识、 专业知识等。例如,语言知识是使用人类语言应当具备的词法、句法、语义或语用等方 面的知识,如WordNe t 、HowNe t 是典型的词法知识图谱;常识知识泛指普通人应当具备 的基本知识信息,如Cyc、ConceptNe t 是典型的常识知识图谱;世界知识指的是现实世 界中各实体间关系的事实知识,前述WikiData、Freebas e 、DBpedi a 、YAG O 是典型的世 界知识图谱;认知知识是人类理解世界所具备的知识,如隐喻知识等;专业知识则是各 专业领域的特定知识,如化学、生物、医疗、金融、计算机等领域都有很多专业知识图 谱。当然,这只是非常粗略的划分,并没有严格的界限,例如,HowNe t 既包含词法级语 言知识,也包含大量的常识知识。 知识图谱的特点是结构化,一般用三元组形式表示不同元素间的复杂关系,从而形 成一个复杂的网络(图谱)。在本书中,我们主要关注与自然语言处理密切相关的两种类 型知识,即世界知识与语言知识。图1. 2 所示是世界知识与语言知识样例。 图1. 2 世界知识与语言知识样例 4 知识图谱与深度学习 | 世界知识图谱将世界上的具象事物和抽象概念表示为实体(entity),将实体之间的 联系表示为关系(relation),常以三元组事实(tripl e fac t )的形式存储实体与实体之间的 关系,类似于万维网联盟发布的资源描述框架(Resourc e Descriptio n Framework , RDF)。 以\\\\\\\\比尔.盖茨是微软公司创始人 ” 的世界知识为例,知识图谱将该知识储存为(比尔. 盖茨,创始人,微软公司),其中比尔.盖茨称为首实体(hea d entity),微软公司称为尾 实体(tai l entity),创始人称为关系(relation)。通过众多三元组构成的链接,世界知识图 谱形成一张巨大的网络,其中网络节点是所有的实体,而节点之间的连边表示实体之间 的关系。 语言知识图谱有很多不同的知识类型和标注方式。本书主要关注基于义原的词汇知 识图谱HowNe t 。在HowNe t 中,语言学家将语言的最小语义单位定义为义原(语义原 子的意思),人工定义了一套包含 2 00 0 多个义原的集合,并用来标注每个词的词义。例 如,\\\\\\\\顶点 ” 包含两个词义,分别是\\\\\\\\最高点\\\\\\\"(acme)和\\\\\\\\三角形两条线的交点\\\\\\\"(vertex) , 均可以用若干个义原及其依存关系来标注表示。这些结构化语言知识,也可以用三元组 形式表示和存储,这些三元组构成的链接能够形成一个大的知识图谱。 以Freebas e 、WikiDat a 为代表的世界知识图谱和以HowNe t 、WordNe t 为代表的语言 知识图谱,过去已经在信息检索、自然语言处理等领域获得比较广泛的应用。进入深度 学习时代,大数据及数据驱动深度学习技术成为推动人工智能发展的重要动力。这些大 规模知识图谱是否依然有用,以及如何发挥作用,是我们接下来需要探讨的重要课题。 1. 2 深度学习的优势和挑战 现在在人工智能领域,几乎无人不谈深度学习,这里以自然语言处理的发展趋势为 代表来考察深度学习的优势和面临的挑战。 自然语言处理研究兴起于美国,在2 0 世纪5 0 年代电子计算机刚刚发明,人们就提 出了利用计算机理解和处理人类语言的设想。当时,美国希望能够利用计算机将大量俄 语材料自动翻译成英语,以监测苏联的科技发展情况。研究者最开始受到军事密码破译 思想的启发,认为不同语言不过是对\\\\\\\\相同语义 ” 的不同编码而已,因此可以像译码技 术破译密码那样来\\\\\\\\破解 ” 这些语言。195 4 年,美国乔治敦大学和IB M 公司成功将超 过6 0 句俄语自动翻译成英语,媒体纷纷报道认为这是一个巨大的进步,美国政府备受鼓 第 1 章绪论5 | 舞,加大了对自然语言处理研究的资助。当时的研究者也自信地认为只要制定好各种翻 译规则,在3. 5 年内就能够完全解决自动翻译问题。然而,事与愿违,理解人类语言要远 比破译密码复杂得多,研究进展异常缓慢,196 6 年一份报告表明,自然语言处理经过十 多年的研究结果远未达到预期,因此支持资金急剧下降,使自然语言处理特别是机器翻 译陷入长达2 0 年的低潮,这也标志着基于规则的理性主义思想在自然语言处理领域的 败退。 直到2 0 世纪9 0 年代,随着电子计算机的计算能力的飞速提高和制造成本的大幅下 降,研究者重新关注自然语言处理这个极富挑战的领域。此时研究者已经意识到简单语 言规则的堆砌无法实现对人类语言的真正理解。同时人们发现,通过对大规模文本数据 的自动学习和统计,能够更好地解决自动翻译等自是有效的。 4 4 | 知识图谱与深度学习 表2.1 1 属性预测的评测结果 评测指标 原始 平均排名 过滤 一命中率(% ) 原始过滤 Trans E 10. 7 5. 6 36. 5 55. 9 Trans H 10. 7 5. 6 38. 5 57. 9 Trasn R 9. 0 3. 9 42. 7 65. 6 KR-EAR(TransE ) 8. 3 3. 2 47. 2 69. 0 +A C 7. 5 3. 0 49. 4 70. 4 KR-EAR(TransR ) 8. 3 3. 2 47. 6 69. 8 +A C 7. 5 3. 0 49. 8 70. 8 表2.1 2 给出了一些KR-EA R 在FB24 K 训练集上得到的属性相关性的例子。可以 发现,在给定一个属性时,预测得到的相关属性常常反映符合常理的相关性。这表明 KR-EA R 可以有效捕获属性之间的相关性。 表2.1 2 属性相关性的例子 属性相关属性 职业婚姻状况 , 国籍 , 性别 , 语言 , 种族 电影发行地电影的国家 , 电影的语言 , 电影的发行日期 , 电影的类型 地区的时区地区所属国家 , 地区通行货币 2.5. 3 小结 在本节中,我们将现有的知识图谱关系分为属性和关系,并提出了一个具有实体、 属性和关系的新的知识表示模型(KR-EAR)。另外,我们还在KR-EA R 中对实体、属性 之间的相关性进行了编码。在实验中,我们对模型在 3 个子任务(预测实体、关系和属 性)中的表现进行了评估。通过显式地建模,KR-EA R 在 3 个子任务中都稳定地显著优 于最新的知识表示模型。 2. 6 融合实体描述信息的知识表示学习 实体描述是对实体自身信息的浓缩精练的文字性介绍,通常由几句话或者一个段落 组成。实体描述的来源十分丰富,既可以在知识图谱构建过程中由人工填写,也可以提 取自百科类数据库的既有信息,还能从丰富的网页文本中抽取。实体描述蕴含着丰富的 第 2 章世界知识的表示学习45 | 实体信息,这些信息能够作为知识图谱中置信度较高的结构化信息的辅助信息,帮助模 型构建更准确的知识表示。图2. 8 给出了在维基百科中关于威廉.莎士比亚的一段实体 描述节选。从图中我们可以看到,威廉.莎士比亚的实体描述中蕴含了该实体各个方面 的丰富信息,如国籍、职业、作品、出生地等,这种实体描述可以很好地作为知识图谱中 已有结构化信息的辅助与补充,提供更加深入的细节描述,甚至能挖掘知识图谱中可能 遗漏的新知识。可以想到,如果我们能够将此部分信息智能地抽取并融入知识表示学习 中,知识表示的性能将会得到明显的提升。 图2. 8 实体描述节选示例 我们从上述思路出发,围绕以下两个主要挑战,提出了融合实体描述的知识表示学 习(Description-embodie d Knowledg e Representatio n Learning , DKR L )模型。 . 如何从实体描述中自动抽取高质量的实体相关知识。实体描述往往在长度、有效 信息、噪声形式、描述质量等方面存在较多差异,这要求模型考虑差异化的文本 输入,自动从实体描述中获取高质量的知识信息,同时减少文本中无用信息的干 扰。 . 当模型抽取到高质量的实体相关知识后,如何将这些基于实体描述的文本信息与 基于知识图谱三元组的结构化信息融合,即如何实现文本空间与知识空间的对齐 与联合训练。 2.6. 1 算法模型 图2. 9 给出了DKR L 模型整体架构的简单图示。如图2. 9 所示,DKR L 模型以实体 描述为输入,通过实体描述编码器得到实体基于描述的表示。在顶层,基于描述的表示 与基于结构的表示在统一的平移模型框架下进行学习。 4 6 知识图谱与深度学习 | 图2. 9 DKR L 模型整体架构的简单图示 DKR L 沿用了Trans E 中的平移假设思想。为了对文本空间与知识空间的表示进行 联合训练,DKR L 的能量函数对二者进行了融合: E(h;r;t) = .1kh S + r . tS . + .2kh S + r . tD . (2.24 ) +.3kh D + r . tS . + .4kh D + r . tD . 其中,.1、.2、.3、. 4 是控制各项权值的超参数,下标S、 D 用于区分基于知识图谱和基 于实体描述文本的实体表示。在能量函数中,kh S + r . tS . 部分与平移模型的能量函数 类似,而kh S + r . tDk、kh D + r . tS . 和kh D + r . tDk 3 项则加入了基于描述的实体向 量影响。这样,通过混合项的软限制,DKR L 模型将实体的两种向量映射到了同一语义 空间中,并共享相同的关系向量。 在训练过程中,DKR L 使用随机生成负例,使用最大间隔方法,定义如下优化目标 函数: L = X . max( γ + E(h;r;t ) . E(h0;r0;t0) , 0 ) (2.25 ) (h;r;t)2 T (h0;r0;t0)2 T . 其中, T 、 T . 分别为知识图谱中的关系三元组正例集和正例三元组随机替换任一元素得 到的三元组负例集。 在模型中尝试使用了如下两种不同的实体描述信息表示模型。 第 2 章世界知识的表示学习47 | . 连续词袋模型(CBOW):根据经典的文本特征,如词频、TF-ID F 值等,筛选出实 体描述中最具信息量的 k 个关键词,将它们词向量的平均值作为实体的文本空间 表示。 . 卷积神经网络模型(CNN):如图2.1 0 所示,实验中使用两层卷积层与对应的池 化层及非线性层对实体描述进行建模,最后一层池化层将信息编码为一个固定长 度的向量。我们在第一个池化层使用了最大池化策略,而在第二层使用了平均池 化策略,这是由于我们认为第一层对应句子内的局部特征,需要更强的去除冗余 和噪声的能力,而第二层对应文本描述全局的特征,需要每个句子都对最终结果 产生贡献。 图2.1 0 卷积神经网络模型示意图 2.6. 2 实验分析 我们使用FB15 K [19 ] 作为实验所用的知识图谱数据。为了测试DKR L 模型在零样本 场景下的知识表示构建效果,我们在FB15 K 的基础上使用Freebas e 对测试集进行扩展, 构建了FB20 K 数据集。FB20 K 的关系集、训练集、验证集与FB15 K 相同,但测试集包 括了大量训练集中未出现的实体。我们将FB20 K 的测试样例分为 4 组: e . e 组表示头 实体和尾实体都在训练集中; d . e 组表示仅尾实体出现在训练集中; e . d 组表示仅头 实体出现在训练集中; d . d 组表示头实体和尾实体都未出现在训练集中。 我们使用两种实体描述编码器对实体描述进行建模,使用连续词袋的模型记录为 DKRL(CBOW ) ,使用卷积神经网络的模型记录为DKRL(CNN)。对于连续词袋模型,使 4 8 知识图谱与深度学习 | 用TF-ID F 值作为各关键词的评分进行排序,并选择前2 0 个关键词构建实体表示(如果 描述长度少于20,则选择描述中全部的词作为关键词)。 为了充分展示DKR L 模型学到的基于描述的知识表示的效果,我们还探索了模型在 零样本环境下的知识表示学习任务表现。零样本学习(zero-sho t learnin g )是人工智能,特 别是深度学习领域的研究热点之一,着重关注于对新样例的建模。在大数据时代,文字、 图像或知识等领域上的模型通常是数据驱动的,而这往往需要在训练时对某类样例进行 成百上千的学习。例如,在知识表示学习任务上,以往的模型大多要求测试集中的实体 曾出现在训练集中,以学得实体的知识表示。然而,在信息爆炸时代,每天都有新实体与 新知识的出现,传统知识表示模型无法自动获得新实体的表示,可拓展性差。我们提出 的DKR L 模型能够根据实体的描述信息(实体描述信息广泛存在于互联网文本中),构 建知识图谱中没有的新实体基于描述的知识表示,是零样本知识表示学习的新思路。 我们使用FB20 K 数据集模拟零样本知识表示学习的环境,在知识图谱补全与实体 类型分类两个任务上进行零样本环境的评测。FB20 K 与FB15 K 有着相同的训练集与验 证集,而在测试集中,FB20 K 有着 5 01 9 个训练集中未出现的新实体。对于这些新实 体,我们使用其基于描述的表示作为知识表示。在知识图谱补全任务中,我们主要关注对 存在新实体的三元组的补全情况。在实体类型分类任务中,我们主要关注新实体的分类 情况。 1 . 知识图谱补全结果与分析 知识图谱补全是知识表示学习的经典评测任务[17,19,113 ] ,可以看作知识图谱上的链 接预测任务。具体地,知识图谱补全任务要求模型在给定三元组(h;r;t ) 的某一实体或 关系丢失的情况下,利用另外两个对象正确预测出丢失的实体或关系。根据具体丢失的 对象,知识图谱补全可以细分为实体预测与关系预测两个任务。知识图谱补全任务旨在 验证所学知识表示的准确性,同时与现实中问答系统的实际任务相呼应。例如,补全三 元组(?,编写,哈姆雷特),即相当于回答\\\\\\\\谁编写了《哈姆雷特》这本书? ” 这个 问题。 我们使用DKR L 模型和基线模型在训练集上学习到的知识向量,对测试集样例进行 知识图谱补全。对于测试集中的每个三元组,我们分别隐藏其头实体、关系和尾实体来 进行实体预测和关系预测。由于DKR L 模型和基线模型都基于平移假设,所以我们直接 使用评分函数S(h;r;t) = k h + r . t . 进行补全。例如,给定三元组的 h 和r,我们首先 第 2 章世界知识的表示学习49 | 使用 h + r 得到一个向量,然后在所有实体集合 E 中按照和 h + r 向量的距离进行排序, 得到预测结果。为了更好地展示两种实体表示的效果,在评测中,DKRL(CBOW ) 模型和 DKRL(CNN ) 模型均只使用实体基于描述的表示进行预测,而DKRL(CNN)+Trans E 模 型使用实体基于描述和基于结构的两种知识表示联合进行预测。 在评测中,我们参考了Borde s 论文中提出的评测方法,使用了平均排名和 N 命中 率两个指标进行评测[19]。主要是由语言 规则来产生和描述的,只要将人类语言规则整理出来,就能够理解人类语言并实现语言 翻译等各种自然语言处理任务。经验主义思想则认为,可以从大规模语言数据中自动学 习总结语言模型,只要有足够多的用于统计学习的语言数据,就能够理解人类语言。 近几十年来,互联网的普及在各领域积累下海量的唾手可得的大数据,计算机的存 储和计算能力也在摩尔定律的支配下日新月异,为基于统计的经验主义思想提供了肥沃 的发展土壤。深度学习则是统计学习方法的最新顶峰。深度学习是人工神经网络的复兴, 在大数据和计算能力的支持下焕发了惊人的能量。与传统统计学习方法相比,深度学习 有以下两个突出特点。 (1)分布式表示。在深度学习中,自然语言处理的对象,如词、句等语言单元的语义 信息,都以分布式表示(distribute d representatio n )的方式进行处理,即表示为实值、稠 密、低维向量。这相当于将语言单元映射到一个低维向量空间中,在这个空间中,各种 元素的距离代表它们之间的语义关系,距离越近就表示语义越相近。深度学习技术可以 通过大规模文本数据自动学习这些语言单元的向量表示,提供了非常广阔的参数空间, 可以习得自然语言中的复杂语义模式。传统自然语言统计模型则主要依赖以字词为起点 的符号表示,如词袋模型(bag-of-word s mode l )及其背后的独热表示(one-ho t represen tation)思想,它们均假设所有词之间是语义独立的,极大地限制了传统模型的语义建模 能力。 知识图谱与深度学习 | (2)深层架构。深度学习的另外一个强大的原因是其深层架构,无论是卷积神经 网络(CNN)中多层的卷积和池化,还是循环神经网络(RNN)中的随序列循环的状 态层,这些深层架构为自动学习自然语言及各种任务的复杂语义模式提供了强大的建模 能力。 自201 3 年word2ve c 问世以来,深度学习在短短几年时间里覆盖自然语言处理的各 类重要任务,在信息检索、机器翻译、智能问答、自动对话等领域均取得了显著进展。然 而,随着更加深入的探索,人们发现深度学习作为数据驱动的经验主义方法,仍然存在 很多局限,面临诸多挑战。其中最致命的是,深度学习的鲁棒性和可解释性较差:有学 者发现,针对一个深度学习模型,可以很容易地精心构造一些对抗样例(adversaria l ex ample)来欺骗该模型。最常见的例子是,对一幅主体为熊猫的图片,通过添加非常少量 的噪声,虽然对人类而言这幅图与原图几乎一模一样,深度学习模型会将其错误地划分 为其他类别。即使人们做出很多尝试,如提出生成式对抗网络(GAN)以及其他数据增 广技术,但仍然无法彻底解决深度学习的鲁棒性和可解释性问题。归根到底,深度学习 仍然是对已有数据的拟合,缺乏对数据的真正理解能力,因此只能做到机械地\\\\\\\\举百反 一\\\\\\\",而不能像人类那样\\\\\\\\举一反三\\\\\\\"。最近兴起的零次/少次学习(zero/fe w sho t learning ) 就在努力赋予深度学习\\\\\\\\举一反三 ” 能力。 如何才能让计算机(或深度学习)具备理解与思考能力呢?我们应当参考人脑的工 作模式。仍然以自然语言理解为例,当人们看到一句话\\\\\\\\这个夏天就像蒸笼一样\\\\\\\",会产 生哪些理解呢?如图1. 3 所示,假如此人母语是英语,且并不懂汉语,如果我们给他一本 中英文词典和语法书(注意这代表某种类型的语言知识),则他可以借助这些语言知识, 很容易地将这个结构简单的句子翻译成英语;此人还需要利用已有的常识知识和认知知 识,才能理解将\\\\\\\\夏天 ” 比作\\\\\\\\蒸笼\\\\\\\",是形容这个夏天很热;如果此人掌握一些关于现实 的世界知识,则他还会想到用某些品牌的空调或风扇帮助降温;如果此人还有一些金融 领域的行业知识,则他就能推测这个夏天空调大卖,空调厂商效益提升,可以提前做投 资布局。 即使现有自然语言处理服务可以处理的简单样例,同样面临类似的问题。例如,用 户检索\\\\\\\\北京到上海的高铁 ” 时,商业搜索引擎可以匹配\\\\\\\\北京\\\\\\\"\\\\\\\\上海\\\\\\\"\\\\\\\\高铁 ” 等实体, 匹配预先定义好的模板,然后根据该模板对应指令查询后台数据库返回相关车次信息。 这像一个事先编排好的操作流程,一切按照剧本来运行,一旦超出事先定义的范围就束 手无策。而人类看到\\\\\\\\北京到上海的高铁\\\\\\\",则会调动各种类型的知识来实现对这句话的 第 1 章绪论7 | 理解,会知道北京和上海是中国的两大直辖市,高铁是运行在陆地上的高速铁路,京沪 高铁是连接北京和上海的最繁忙的铁路线。人类永远无法像搜索引擎那样记住繁多的京 沪高铁车其中,平均排名表示所有测例中正确答案的平均排序,关注知 识表示的整体效果;而 N 命中率表示排名前 N 的答案中有正确答案的测例比例,关注 在实际任务中模型补全的实用性。特别地,我们在关系预测任务中使用一命中率,在实 体预测任务中使用十命中率对模型进行评测。评测结果分别如表2.1 3 和表2.1 4 所示。 表2.1 3 FB15 K 上实体预测的评测结果 评测指标 平均排名十命中率(% ) 原始过滤原始过滤 Trans E 21 0 11 9 48. 5 66. 1 DKRL(CBOW ) 23 6 15 1 38. 3 51. 8 DKRL(CNN ) 20 0 11 3 44. 3 57. 6 DKRL(CNN)+Trans E 18 1 9 1 49. 6 67. 4 表2.1 4 FB15 K 上关系预测的评测结果 评测指标 平均排名一命中率(% ) 原始过滤原始过滤 Trans E 2.9 1 2.5 3 69. 5 90. 2 DKRL(CBOW ) 2.8 5 2.5 1 65. 3 82. 7 DKRL(CNN ) 2.9 1 2.5 5 69. 8 89. 0 DKRL(CNN)+Trans E 2.4 1 2.0 3 69. 8 90. 8 从结果中,我们可以得到以下一些结论。 (1)在实体预测与关系预测两个任务上,DKRL(CNN)+Trans E 模型在所有评测指 标上都取得了最好的结果。这个结果说明了实体描述确实蕴含着丰富的文本信息,而这 些文本信息能有助于构建更好的知识表示。同时,这也说明了卷积神经网络编码器能够 智能地选择实体描述中有信息量的特征,自动过滤可能的噪声。具体地,平均排名评测 指标上的提升,说明DKR L 模型学到的知识表示整体效果较好;而 N 命中率评测指标 上的提升,则说明DKR L 模型对于知识图谱的补全任务的推荐质量更高。 5 0 知识图谱与深度学习 | (2)对比两种实体描述编码器的模型结果,发现DKRL(CNN ) 模型的结果在实体预 测的平均排名、十命中率指标及关系预测的一命中率指标上都显著地优于DKRL(CBOW ) 模型。在关系预测的平均排名指标上,二者的结果也是相近的。这是因为与连续词袋模 型相比,卷积神经网络不仅抓住了词级别的语义信息,而且通过卷积操作获得了局部的 词序信息。另外,最大池化操作使得编码器能够更关注局部特征的强信号,避免长篇描 述中的噪声干扰。综上所述,虽然DKRL(CBOW ) 模型更加简单快速,但DKRL(CNN ) 模型能够在知识图谱补全任务上获得更好的效果。 (3)进一步地,我们还通过样例分析证实了有时仅通过结构信息是难以抓住实体相 关的知识细节的。例如,如果知识图谱中没有直接提及,我们很难仅通过有限的三元组 信息回答一个球员到底是前锋还是守门员这种细节问题;而如果通过实体描述,我们就 可以在文字信息中挖掘可能相关的知识细节(如球员在比赛中的表现),从而给出正确 的回答。 (4)融合实体描述的知识表示在某些评测指标上,相比基线模型的提升似乎不太明 显。这是因为对于一些三元组的补全任务,仅依靠结构信息就能达到不错的效果。另外, 由于实体描述中存在较长的文本,仅使用卷积神经网络还是很难智能地抓住实体相关的 每个细节信息。使用更好的实体描述编码器,或者使用更好的实体基于描述的表示方法, 可能会是模型未来的提升点。除此之外,DKR L 模型在新实体的零样本知识表示构建任 务上展示出了它的能力,而这是传统基于结构信息的知识表示学习模型难以做到的。 2 . 实体类型分类结果与分析 实体类型分类任务旨在预测一个实体的所有类型,可以看作一个多标签分类的问题, 在以往的工作中也常被研究[142]。目前,大多数大规模百科或知识图谱都维护有自己的 实体类型(entit y typ e )信息。例如,在Freebas e 中,莎士比亚这个实体即有作家、艺术 家和获奖提名人等实体类型。实体类型分类任务能够从实体类型的粒度上证明知识表示 的有效性。 我们首先从Freebas e 中抽取FB15 K 训练集中所有实体的全部实体类型,共得到 4 05 4 个实体类型。由于这些类型分布具有长尾性,有相当的实体类型仅仅出现了很少的 次数,所以我们按照这些实体类型在对应数据集实体中出现的频次从高到低排序,选择 频次前5 0 的实体类型作为待分类的实体类型集(去除了话题这个类型,因为它几乎出现 在所有实体的类型列表中)。前5 0 的实体类型覆盖了1 3 44 5 个实体,随机将这些实体分 第 2 章世界知识的表示学习51 | 为训练集与测试集,其中训练集含有1 2 11 3 个实体,测试集含有 1 33 2 个实体。FB15 K 中部分实体类型及其对应频次如表2.1 5 所示。 表2.1 5 FB15 K 中实体类型及其对应频次 排名实体类型频次 1 人450 7 2 奖项提名者404 2 3 获奖者357 1 4 电影演员338 1 5 地点318 4 在训练时,我们使用基线模型和DKR L 模型训练得到的知识表示作为实体的特征向 量,使用逻辑斯蒂回归算法(logisti c regressio n )作为分类器,并使用一对其他(one-versus rest)的训练策略训练多标签分类的逻辑斯蒂回归分类器。在评测中,DKRL(CBOW ) 模 型和DKRL(CNN ) 模型同样只使用实体基于描述的表示作为特征向量。为了充分显示 DKR L 模型的优势,我们还实现了一个基于文本的经典词袋模型(BO W )作为补充基线 模型。这个模型基于词袋模型,使用实体描述中词的TF-ID F 值构建特征向量,然后使 用回归算法进行分类。 在评测指标上,我们参考相关工作的设定,使用平均准确率均值(Mea n Averag e Pre cision , MA P )作为评测指标[142]。MA P 是多标签分类任务中常用的评测指标之一,在信 息检索等领域被广泛使用,其公式为 XjQ | Ave P (i ) (2.26 ) MA P = i= 1 jQ | 其中,jQ | 是测试集的样例数,Ave P (i ) 是第 i 个测试样例的平均准确率,有 n X(Pi(k ) × correcti(k) ) (2.27 ) Ave P (i) = k= 1 m i 其中, n 是候选类型的个数,m i 是第 i 个测试样例真实拥有的实体类型数。在计算Ave P (i ) 时,首先将各候选类型的得分从高到低排序;然后依序判断是否是正确答案。Pi(k ) 是第 i 个测试样例截至第 k 个候选类型时的准确率,而correcti(k ) 函数是一个指示函数,当 且仅当第 k 个候选类型是正确答案时correcti(k ) 为1,其余情况下为0。 5 2 知识图谱与深度学习 | FB15 K 上实体类型分类的评测结果如表2.1 6 所示,我们分析DKR L 模型在FB15 K 数据集上的结果,得到了以下结论。 (1)DKRL(CBOW ) 模型和DKRL(CNN ) 模型在MA P 评测指标上均能显著超过 两个基线模型。这个结果从另一个侧面证明了实体描述中的丰富文本信息能够帮助模 型建立更好的知识表示,从而为实体类型分类任务提供更加准确的指导信息。我们认为 DKR L 模型在实体类型任务上的优势主要来源于联合知识图谱的结构信息与实体描述的 文本信息。这是由于与DKR L 模型相比,Trans E 模型使用的知识表示中仅编码了知识图 谱三元组的结构信息,而BO W 模型也仅编码了实体描述中的文本信息,所以DKR L 模 型学习到的知识表示在类型分类任务上更加有效。 (2)DKRL(CNN ) 模型在实体类型分类任务上的表现优于DKRL(CBOW ) 模型。这 个结果进一步证明了卷积神经网络模型能够更准确地对实体描述信息进行编码与表示。 在实验过程中,我们发现,对于一些描述较长的测试样例,使用DKRL(CNN ) 模型的准 确率通常要高于DKRL(CBOW ) 。 表2.1 6 FB15 K 上实体类型分类的评测结果 评测指标MA P Trans E 87. 9 BO W 86. 3 DKRL(CBOW ) 89. 3 DKRL(CNN ) 90. 1 3 . 零样本知识图谱补全 在零样本知识图谱补全任务中,我们仅关注测试集中存在新实体的三元组的结果, 即FB20 K 数据集中的 d . e、 e . d 和 d . d 3 类三元组。由于传统的平移模型无法对 新实体进行表示,所以我们仅测试了DKRL(CBOW ) 模型和DKRL(CNN ) 模型的表示效 果。在测试时,对于所有新实体,我们均使用其基于描述的表示作为知识表示,而对于 测试集中出现在训练集中的实体,我们使用其两种表示分别进行测试。综上所述,我们 在测试中一共使用了 4 种模型设定,其中CBO W 表示测试中所有实体均使用基于描述 的表示,而Partial-CBO W 表示在训练集中有的实体使用基于结构的表示。同理,CN N 和Partial-CN N 也分别表示在卷积神经网络模型下使用实体基于描述和基于结构的表示 的模型。我们在实体预测与关系预测任务上分别进行了测试,并且展示的不同三元组类 的十命中率(对实体)和一命中率(对关系)的实验结果。 第 2 章世界知识的表示学习53 | FB20 K 上零样本实体预测的评测结果如表2.1 7 所示,FB20 K 上零样本关系预测的 评测结果如表2.1 8 所示。 表2.1 7 FB20 K 上零样本实体预测的评测结果(% ) 三元组类型 d . e e . d d . d 总计 Partial-CBO W 26. 5 20. 9 67. 2 24. 6 CBO W 27. 1 21. 7 66. 6 25. 3 Partial-CN N 26. 8 20. 8 69. 5 24. 8 CN N 31. 2 26. 1 72. 5 29. 5 表2.1 8 FB20 K 上零样本关系预测的评测结果(% ) 三元组类型 d . e e . d d . d 总计 Partial-CBO W 49. 0 42. 2 0. 0 46. 2 CBO W 52. 2 47. 9 0. 0 50. 3 Partial-CN N 56. 6 52. 4 4. 0 54. 8 CN N 60. 4 55. 5 7. 3 58. 2 从这些结果中,我们可以得到以下结论。 (1)在实体预测与关系预测两个任务上,基于CN N 的模型在整体结果与各个子分 类上均取得了最佳结果。对于训练集中未出现的新实体,仅依靠其基于描述的表示,即 能在关系预测任务上达到将近60 % 的准确率。这说明DKR L 模型学得的基于描述的表 示即使在零样本情境下也能获得不错的效果,体现了实体描述文本信息的重要性。需要 指出的是, d . d 类三元组中的头实体和尾实体均为新实体,是理论上最为困难的测试样 例类。然而 d . d 类在零样本实体预测任务中取得远超其他三元组分类的准确率。这是 因为 d . d 类中有很大部分是自环型的关系,即实体自身相连的关系,所以实体预测反 而更加容易。 (2)CN N 模型在两个任务上的表现均优于CBO W 模型。具体地,CN N 模型在实体 预测任务上比CBO W 模型提高约4.2%,在关系预测任务上提高约7.9%。这说明卷积神 经网络模型与连续词袋模型相比考虑了词序信息,能够更好地抓住实体描述中关键的文 本信息。 (3)Partial-CBO W 模型和Partial-CN N 模型在两个任务上也得到了不错的效果。 这是因为DKR L 模型的能量函数是由实体两种表示的四种组合联合形成的。通过 kh S + r . tDk、kh D + r . tS . 两个混合项的软限制,实体基于描述和基于结构的表示 倾向被学习到同一个语义空间中,理想状态下能够相互替换。我们在实验过程中尝试过 5 4 知识图谱与深度学习 | 使用更为严格的限制(如强制实体的两种知识表示相等)强化这种语义空间的可替代性, 但是这会使得模型在其他任务上的表现效果下降。最后我们在模型中仅保留了混合项的 软限制,在确保知识表示质量的前提下,一定程度维护了实体两种表示的可替代性。 4 . 零样本实体类型分类 在零样本实体类型分类实验中,仿照上一节实体类型分类的实验设计,将前5 0 类型 覆盖的全部1 3 44 5 个实体(这些实体在FB20 K 的训练集中出现过)作为训练集,使用实 体基于描述的表示作为实体特征向量,采用逻辑斯蒂回归训练分类器。将FB20 K 中的 4 05 0 个被前5 0 类型覆盖的新实体作为测试集,依旧使用MA P 作为评测指标。我们测 试了DKRL(CBOW ) 模型和DKRL(CNN ) 模型,由于平移模型无法对新实体进行表示, 我们依然沿用了上一节的BO W 模型作为基线模型。 FB20 K 上实体类型分类的评测结果如表2.1 9 所示。从结果中可以发现,DKRL(CNN ) 模型取得了最佳结果,比DKRL(CBOW ) 模型和BO W 模型分别提高了9.9 % 和4.4%。这 个结果再次验证了卷积神经网络构建的基于描述的实体表示较好地对结构信息与文本信 息进行了编码。 表2.1 9 FB20 K 上实体类型分类的评测结果(% ) 评测指标MA P BO W 57. 5 DKRL(CBOW ) 52. 0 DKRL(CNN ) 61. 9 2.6. 3 小结 在本节中,我们提出的DKR L 模型实现了融合实体描述的知识表示学习任务。我 们基于平移模型的思想建立知识表示学习框架,并创新性地为每个实体设置了两种知识 表示||基于结构的表示与基于描述的表示。我们使用连续词袋模型与卷积神经网络模 型两种实体描述编码器对实体描述进行建模,从实体描述中学习实体基于描述的知识表 示。模型在知识图谱补全和实体类型分类等任务上进行了评测,均取得了超过基线模型 的效果,同时在零样本情境下验证了模型对新实体的表示能力。实验结果充分证明了实 体描述蕴含的丰富文本信息有助于建立更好的知识表示,同时说明融合实体描述的知识 表示学习模型能够准确地对实体描述和三元组结构信息进行联合建模。 第 2 章世界知识的表示学习55 | 2. 7 融合层次类型信息的知识表示学习 传统的知识表示方法(如Trans E 及其扩展模型 ) 仅使用知识图谱之间的关系信息作 为监督信号对实体嵌入施加约束,但实际上实体层次类型也能够为表示学习提供大量重 要的信息,加深模型对实体与三元组的理解。由于实体层次类型信息往往具有人工定义 的结构化体系,它可以被看作一种较为准确的先验知识。一些广泛使用的大规模知识图 谱(如Freebas e 、DBpedi a 等 ) 及常见的百科类数据库(如维基百科等 ) 都维护着一套自己 的实体层次类型信息。 因此,我们尝试将实体层次类型信息应用在世界知识表示学习中。我们认为,特定 关系下的实体应该有更需要突出的实体类型,而实体在突出不同类型时应该有不同的知 识表示。在图2.1 1 所示的Freebas e 实体层次类型信息样例中,我们发现在写作这个关系 下,威廉.莎士比亚更应突出书籍作者这个类型,而《罗密欧与朱丽叶》更应突出书籍作 品这个类型,这些相对重要的实体类型在图2.1 1 中以实线进行连接。所以,对于图2.1 1 中的三元组,应该由威廉.莎士比亚在书籍作者上的知识表示与《罗密欧与朱丽叶》在 书籍作品上的知识表示进行交互。为了利用实体的类型信息指导知识表示学习,使实体 在不同的情境下具有不同的嵌入表示,我们提出了融合实体层次类型信息的知识表示学 习模型(TKRL)。 图2.1 1 Freebas e 实体层次类型信息示例 2.7. 1 算法模型 如图2.1 2 所示,类似TransR,TKR L 基于平移假设思想,将实体以不同的方式投影 到各自的关系空间中,但不同的是,TKR L 对各个实体的投影矩阵可能不同,且投影矩 阵的构建受到实体层次类型指导,这可以从TKR L 的能量函数中看出。 5 6 知识图谱与深度学习 | E(h;r;t) = kMr;h h + r . Mr;tt . (2.28 ) 其中,Mr; h 、Mr; t 为关于关系 r 为头尾实体h、 t 构建的投影矩阵,它们由层次类型编码器 根据层次类型信息给出。具体地,对于三元组(h;r;t),根据知识图谱中关系特化的实体类 型信息, h 在关系 r 下的头实体位置所应该突出的类型集合为Cr; h r;h 1 ;c 2 ;cn = fcr;h , r;hg, ¢¢ · 则 n 1 2 n r; h r; h Mr; h = 1 3Mc + Mc+ + Mcr; h . (2.29) ¢¢ · 其中,M c 为层次类型 c 的投影矩阵。层次类型编码器为尾实体 t 构建的投影矩阵可以 同理得到。 图2.1 2 融合层次类型信息的知识表示学习模型图 假设有层次类型 c = fc(k.1 ) → ¢¢ · → c(1)g,其在层次类型结构中对应了一条由子类 型构成的链,其中从粒度最细到粒度最粗的子类型依次为c(1)、c(2)、、c(k.1),其对应 ¢¢ · 的投影矩阵分别为Mc(i ) ,我们尝试使用以下两种策略在TKR L 中构建层次类型 c 的投 影矩阵Mc。 k.1 . 递归层次编码:M c = . Mc(i ) = Mc(1 ) Mc(2 ) Mc(k.1 ) ; ¢¢ · i= 1 k. 1 . 加权层次编码:M c = . ˉiMc(i ) = ˉ1Mc(1 ) + + ˉk.1Mc(k.1 ) ,其中ˉ i 为子类 ¢¢ · i= 1 k.1 型c(i ) 的权重,随 i 增大等比例减小,即ˉ i = ˉ1.i. 1 , . ˉ i =1 , 0 <. < 1,粒度 i 越粗的子类型,其权重越低。 第 2 章世界知识的表示学习57 | 子类型的投影矩阵被作为模型的参数直接学习得到。 2.7. 2 实验分析 1 . 知识图谱补全结果与分析 在实验中,我们使用了两种层次类型编码器对实体类型的层次结构进行建模,使用 递归层次编码器的模型记录为TKRL(RHE) , 使用加权层次编码器的模型记录为 TKRL(WHE)。我们将训练中使用了软类型限制的模型加上(+STC ) 的标志,将测试中 使用了类型限制的模型加上(+TCE ) 的标志。 我们使用融合实体层次类型的知识表示学习模型和基线模型在训练集上学到的实体 与关系向量,对测试集中的三元组样例进行知识图谱补全。对于测试集中的每个样例,我 们分别隐藏其头实体、关系和尾实体,用于进行实体预测和关系预测。在测试时,将全 部实体(或关系)作为候选集,根据各模型的能量函数为每一个候选三元组进行评分。 具体地,对于平移模型,使用E(h;r;t) = k h + r . t . 的评分函数;对于Trans R 模型, 我们使用E(h;r;t) = kMr h + r . Mrt . 的评分函数;而对于TKR L 模型,我们使用 E(h;r;t) = kMr;h;1 h + r . Mr;t;2t . 的评分函数。该实验仍然使用平均排名和 N 命中率 作为评测指标。我们在实体预测与关系预测两个任务上进行了测试,FB15 K 上实体预测 的评测结果如表2.2 0 所示。FB15 K 上关系预测的评测结果如表2.2 1 所示。 表2.2 0 FB15 K 上实体预测的评测结果 评测指标 平均排名十命中率(% ) 原始过滤原始过滤 RESCA L 82 8 68 3 28. 4 44. 1 S E 27 3 16 2 28. 8 39. 8 SME(linear ) 27 4 15 4 30. 7 40. 8 SME(bilinear ) 28 4 15 8 31. 3 41. 3 LF M 28 3 16 4 26. 0 33. 1 Trans E 23 8 14 3 46. 4 62. 1 Trans R 19 9 7 7 47. 2 67. 2 TKRL(RHE ) 18 4 6 8 49. 2 69. 4 TKRL(WHE ) 18 6 6 8 49. 2 69. 6 TKRL(RHE+STC ) 20 2 8 9 50. 4 73. 1 TKRL(WHE+STC ) 20 2 8 7 50. 3 73. 4 5 8 知识图谱与深度学习 | 分析实体预测与关系预测的评测结果,我们可以得到以下结论。 (1)在实体预测与关系预测中,TKRL(RHE ) 模型与TKRL(WHE ) 模型在所有评测 指标上超过了所有的基线模型。这说明实体层次类型蕴含着丰富信息,能够帮助模型学 到更加准确的知识表示,同时说明我们设计的递归层次编码器与加权层次编码器能够很 好地对实体类型的层次结构进行建模,将实体层次类型信息顺利地融入知识表示中。 表2.2 1 FB15 K 上关系预测的评测结果 评测指标 原始 平均排名 过滤 一命中率(% ) 原始过滤 Trans E Trans R 2.7 9 2.4 9 2.4 3 2.0 9 68. 4 70. 2 87. 2 91. 6 TKRL(RHE ) TKRL(WHE ) TKRL(RHE+STC ) TKRL(WHE+STC ) 2.1 2 2.2 2 2.3 8 2.4 7 1.7 3 1.8 3 1.9 7 2.0 7 71. 1 70. 8 68. 7 68. 3 92. 8 92. 5 90. 7 90. 6 (2)我们将TKR L 模型与同样基于平移假设的基线模型进行比较。与Trans E 模型 相比,TKR L 模型在所有评测指标上的提升效果都十分显著。这从侧面证实了实体在不 同类型下应该有不同知识表示的假设,一定程度上解决了平移模型框架对于复杂关系建 模难的问题。另外,TKR L 模型与Trans R 模型相比也获得了不少提升。Trans R 模型使 用了关系特化的映射矩阵,使实体在不同关系下拥有不同的表示,而使用模型充分利用 了实体层次类型信息及关系特化的类型信息,使得各个层次类型之间能通过层次结构和 共享的子类型产生关联。实体预测的实验结果也证明,这种基于类型先验知识的映射矩 阵融合了更多的信息,从而在实体表示上取得了更好的结果。 (3)TKRL(WHE+STC ) 模型在实体预测十命中率(过滤)的评价指标上取得了最好 的实验结果,在TKRL(WHE ) 模型的基础上又提升了约3.8%。而训练中的软类型限制 方法在递归层次编码器模型上也能带来相似的提升效果。这是因为在训练时,软类型限 制能够增大拥有同类型的实体被选中组成负例三元组的概率。这样的训练方式与之前的 方法相比,能够使得拥有相同类型的实体向量之间的差异度更高,从而在测试时得以对 相似实体进行更精确的区分。然而,使用软类型限制的方法在平均排名指标上会稍稍下 降。这是因为类型限制方法不可避免地减弱了相似实体在向量空间中的聚类现象,增加 了极端错误的可能性,而平均排名指标较容易受到极端错误结果的影响,最终导致了排 名指标结果的降低。 第 2 章世界知识的表示学习59 | (4)比较基于递归层次编码器和基于加权层次编码器的模型,我们发现,前者在关 系预测上表现较好,而后者在实体预测上表现较好,但是两者相差较小。这一部分是因为 我们在实验中使用的是基于Freebas e 的实体类型层次结构,而这些层次结构大多较浅, 无法充分体现两种层次编码器的差别。但是在运行速度上,基于加权层次编码器的模型 明显快于基于递归层次编码器的模型。 2 . 测试中的实体类型限制分析 测试中的实体类型限制也能提高模型在知识图谱补全任务上的性能。由于测试中的 实体类型限制方法受限于实体类型的完整度与准确度,为了显示模型的鲁棒性,我们仅 将此部分结果单独作为辅助实验,并对测试中实体类型限制的效果进行详尽分析。 我们在TKRL(RHE+STC ) 模型和TKRL(WHE+STC ) 模型上加入测试中的实体类 型限制,并相应地得到了TKRL(RHE+STC+TCE ) 模型和TKRL(WHE+STC+TCE ) 模 型。需要注意的是,与krompa.等研究者的测试设定不同[103],我们在测试中仍使用实体 集合中的全部实体作为候选集(即与传统知识表示学习的测试设定相同)。为了更充分 地展示我们模型的优势,我们为基于平移假设的基线模型也增加了训练和测试中的实体 类型限制。测试中的实体类型限制在实体预测上的效果如表2.2 2 所示。 表2.2 2 测试中的实体类型限制在实体预测上的效果 评测方法 平均排名十命中率(% ) 原始过滤原始过滤 TransE+TC E 21 2 11 6 46. 9 63. 4 TransR+TC E 18 2 6 0 47. 9 68. 6 TransE+STC+TC E 20 3 10 4 49. 8 69. 9 TransR+STC+TC E 18 5 6 3 48. 5 71. 7 TKR L (RHE+STC+TCE ) 16 9 5 6 51. 4 75. 4 TKR L (WHE+STC+TCE ) 17 0 5 5 51. 3 75. 6 将表2.2 2 的结果与表2.2 0 中对应模型的结果进行比较,我们可以得到以下结论。 (1)包括TKR L 模型、平移模型和Trans R 模型在内的所有模型,在加入测试中的实 体类型限制时,实体预测的效果都有提升。在十命中率上,TKRL(WHE+STC+TCE ) 模 型的过滤评测指标上达到了75.6%,比不使用测时类型限制的模型进一步提升了2.2%。 这是因为测试中的实体类型限制去除了违反类型限制的候选实体,在实体类型较完整与 准确时,能够缩小候选范围并较少地引入错误,从而提升实体预测的效果。 6 0 知识图谱与深度学习 | (2)对于基于平移假设的基线模型,在训练中使用软类型限制能够进一步提升测试 中类型限制的效果。以Trans E 模型为例,使用测试中的类型限制能够使得Trans E 模型在 十命中率(过滤 ) 评测指标上的结果提高1.3%。而再加上训练时的软类型限制,TransE + STC+TC E 模型能够进一步提高6.5%。这是因为训练中的软类型限制能够使得相似实体 间的差异明显化,在联合使用测试中的实体类型限制时能够获得更好的效果。 (3)对比所有使用了训练/测试中实体类型限制方法的模型,TKR L 模型仍然能够 取得最佳的结果。这充分说明了根据实体层次类型建立类型特化映射矩阵的重要性与使 用模型的鲁棒性。 3 . 长尾分布数据上的结果与分析 由于真实世界中的知识图谱往往具有长尾分布,所以我们构造了FB15K + 数据集, 用以测试模型在长尾分布下实体预测与关系预测的效果。与FB15 K 相比,FB15K + 中增 加了51 0 个关系,而这些关系往往都具有较低频次。我们根据各关系在FB15K + 的三元 组中出现的频次对测试集划分成组,展示了模型在实体预测与关系预测中各组测试集的 N 命中率(过滤 ) 评测指标的结果。为了便于展示,我们仅对Trans E 模型、Trans R 模型 与TKRL(WHE ) 模型的结果进行比较。其结果如表2.2 3 所示。 表2.2 3 长尾分布数据集FB15K+上的实体预测与关系预测结果 关系频次 实体预测十命中率(% ) 关系预测一命中率(% ) Trans E Trans R TKRL(WHE ) Trans E Trans R TKRL(WHE ) . 1 0 28. 0 32. 4 38. 1 (+5.7 ) 13. 2 17. 0 21. 5 (+4.5 ) 610 0 49. 9 54. 5 57. 9 (+3.4 ) 45. 7 50. 5 54. 3 (+3.8 ) 6 1 00 0 66. 1 69. 1 71. 6 (+2.5 ) 70. 9 75. 4 77. 8 (+2.4 ) 全部61. 9 67. 2 69. 2 (+2.0 ) 80. 4 88. 8 89. 7 (+0.9 ) 从表2.2 3 我们可以得到以下结论。 (1 ) TKRL(WHE ) 模型在所有频次测试组中的实体预测和关系预测结果均好于 Trans E 模型和Trans R 模型,这充分证明了融合实体类型信息的知识表示学习模型在真 实的长尾分布数据上相对于基线模型也具有显著优势,也进一步说明了模型的有效性与 鲁棒性。 (2)通过观察发现,TKRL(WHE ) 模型在低频关系下实体预测和关系预测的结果相 比高频提升更大。在表2.2 3 中,TKRL(WHE ) 模型的结果后面标注了其相对Trans R 模型 的提升结果。在关系频次小于等于1 0 的分组下,TKRL(WHE ) 模型在实体预测和关系预 第 2 章世界知识的表示学习61 | 测上分别比Trans R 模型提高了5.7 % 和4.5%;而在全部测试集上的结果,TKRL(WHE ) 模型在实体预测和关系预测上仅比Trans R 模型提高了2.0 % 和0.9%。这是因为尽管 TKR L 模型与Trans R 模型都使用了映射矩阵的方法构建实体在不同情境下的表示,但 是TKR L 的构建基于实体层次类型,而Trans R 的构建基于关系。在对拥有低频关系的 实体进行建模时,Trans R 模型较容易受到数据稀疏及训练不充分的影响;而TKR L 模型 能够充分利用实体层次类型之间的联系,对低频关系下的实体也能较好地建立表示。 4 . 三元组分类结果与分析 使用FB15 K 的测试集进行三元组分类的评测,然而知识图谱中并没有显式的负例 三元组。我们参考Soche r 等研究者在三元组分类任务上的设定[178],基于测试集自动构 建负例。具体地,对于测试集中每一个正例三元组(h;r;t),随机替换掉其中的头实体或 者尾实体,组成负例三元组(h0;r;t ) 或者(h;r;t0)。为了使三元组分类任务更具挑战性, 更大程度上展示模型的性能差异,我们使用了实体类型限制的方法,强制要求替换的负 例实体和被替换的原实体拥有相同的类型。例如,(莎士比亚,写作,哈姆雷特)的负例 中头实体应该也是一位作家,因为拥有错误类型的负例三元组很容易会被知识表示学习 模型检测出来,从而失去评测意义。在实验中,对于验证集和测试集中的每一个三元组, 我们以均等概率随机替换头实体或尾实体,产生对应的负例,这保证了三元组分类任务 中正负例的数量一致。 我们使用Trans E 模型和Trans R 模型作为基线模型,与TKR L 模型进行比较。在 评测时,我们仍然使用在知识图谱补全任务中各模型对应的三元组评分函数E(h;r;t ) 进 行判定。具体地,我们会为每一种关系设定一个阈值±r。当E(h;r;t ) >± r 时,三元组被 判断为负例;当E(h;r;t ) <± r 时,三元组被判断为正例。我们在验证集上进行优化,得 到各关系所对应的阈值±r,用于对测试集进行评测。FB15 K 上三元组分类的评测结果如 表2.2 4 所示。 从结果中,我们可以发现以下结论。 (1)TKR L 模型的准确率超过了所有的基线模型,其中TKRL(WHE+STC ) 模型得 到了最好的结果。这从另一个角度说明了融合实体类型的知识表示学习模型能够学到更 准确的知识表示,从而帮助三元组分类等任务。 (2)加上训练中的软类型限制方法后,递归层次编码器模型和加权层次编码器模型 都能获得进一步的提升。这说明了软类型限制能够学习到相似实体之间的差异,从而在 6 2 知识图谱与深度学习 | 三元组分类任务上获得更加精确的结果。 表2.2 4 FB15 K 上三元组分类的评测结果 模型准确率(% ) Trans E 85. 7 Trans R 86. 4 TKRL(RHE ) 86. 9 TKRL(WHE ) 87. 1 TKRL(RHE+STC ) 88. 4 TKRL(WHE+STC ) 88. 5 2.7. 3 小结 在本节中,我们提出了TKR L 模型,融合实体层次类型信息辅助知识表示学习。我们 在平移模型的思想上做出改进,提出实体在不同类型下应该具有不同知识表示的假设, 构建类型特化的映射矩阵,并使用递归层次编码器和加权层次编码器对类型的层次结构 进行建模。我们还提出了软类型限制的策略,并在训练与测试中分别使用了类型限制的 方法,进一步提高知识表示的精确度。模型在知识图谱补全和三元组分类等任务上进行 了评测,均取得了超过基线模型的效果,同时在具有长尾分布的数据集上验证了模型对 低频关系的表示效果。实验结果充分证明了实体层次类型蕴含了丰富的信息,能够帮助 建立更精确的知识表示,同时说明提出的融合实体层次类型信息的知识表示学习模型能 够有效地联合编码并学习到实体类型的知识。 2. 8 融合实体图像信息的知识表示学习 图像信息是人类能够自然接收并认知的信息之一,以图像形式储存的信息往往更加 灵活和丰富。研究结果表明,人类每日从外界进行的信息获取与交互行为中,很大一部 分是通过视觉来完成的。通过图像信息的帮助,我们往往得以从多角度全方位地理解实 体在文字或结构化信息之外的知识细节。主体部分描述指定实体的实体图像能够提供对 应实体自身外形、行为和其他相关实体的视觉信息。实体图像信息来源十分丰富,一些 世界知识图谱(如维基百科等)往往会有对应实体的图像信息,而专门的图像数据集更 是储存着海量的实体相关图像信息。 第 2 章世界知识的表示学习63 | 受此启发,我们提出了融合实体图像信息的知识表示学习模型(IKRL)。如图2.1 3 所示,对于一个三元组,IKR L 模型以其头实体和尾实体的所有实体图像作为输入,经过 实体图像编码器得到各个图像在知识空间的表示。由于一个实体往往有多张质量良莠不 齐的图像,IKR L 使用注意力机制自动评估图像的质量,并根据各图像的质量对它们的 嵌入表示进行整合得到实体基于图像的表示。 图2.1 3 融合实体图像信息的知识表示学习模型流程图 2.8. 1 算法模型 类似DKRL,IKR L 也需要融合两种不同的信息以实现图像空间和知识空间的对齐 和联合训练,故IKR L 也采用了类似式2.2 4 的能量函数。 E(h;r;t) = .1kh S + r . tS . + .2kh S + r . tIk + (2.30 ) .3kh I + r . tS . + .4kh I + r . tI . 其中,下标S、 I 用于区分基于知识图谱和基于实体图像的实体表示。同时,IKR L 采用 了与DKR L 相同的带间隔的目标函数(见式2.25)。 对于实体ek,为了从其实体图像集合I k = fimg( 1 k ) , img( 2 k ) ; , img( n k) } 得到基于图像 ¢¢ · 的实体表示,IKR L 首先使用图2.1 4 所示的图像编码器对每个图像img( i k ) 分别进行编码 得到p i (k ) ,然后应用基于注意力机制的多实例学习(MIL)方法,将多个图像得到的编码 图2.1 4 实体图然语言处理任务。这就是统计自然语 言处理,标志着基于统计的经验主义思想在自然语言处理领域的兴起。 总结过去,人们主要探索了两种自然语言处理的思想,一种是基于规则的理性主义 思想;另一种是基于统计的经验主义思想。理性主义思想认为,人类语言, 2 , 4 } 中选择边界值°;从f20 , 50 , 100 } 中选择实体和关系的维度 k 和 d;从f20 , 120 , 480 , 1 440 , 4 800 } 中选择同一批次训练的数据规模B。对于CTrans R ,从 f0:1 , 0:01 , 0:001 } 中选择约束参数.。通过验证集上的平均排名评分来决定最好的参数。 对于WN18,我们采用了L 1 距离,最优的参数为 λ =0:001, γ =4, k = 50, d = 50, B = 1 440, α =0:001。对于FB15K,我们采用了L 1 距离,最优的参数为 λ =0:001, γ =1, k = 50, d = 50, B = 4 800, α =0:01。对于这两个数据集合,我们均训练50 0 轮。 WN1 8 和FB15 K 上的评测结果被罗列在表2. 1 中,包括两种不同的负例采样算 法||unif(均衡采样)和ber n (基于头尾实体分布伯努利采样)。 表2. 1 WN1 8 和FB15 K 上的评测结果 数据集WN1 8 FB15 K 评测指标 平均排名十命中率(% ) 平均排名十命中率(% ) 原始过滤原始过滤原始过滤原始过滤 unstructure d 31 5 30 4 35. 3 38. 2 1 07 4 97 9 4. 5 RESCA L 1 18 0 1 16 3 37. 2 52. 8 82 8 68 3 28. 4 44. 1 S E 1 01 1 98 5 68. 5 80. 5 27 3 16 2 28. 8 39. 8 SM E (linear ) 54 5 53 3 65. 1 74. 1 27 4 15 4 30. 7 40. 8 SM E (bilinear ) 52 6 50 9 54. 7 61. 3 28 4 15 8 31. 3 41. 3 LF M 46 9 45 6 71. 4 81. 6 28 3 16 4 26. 0 33. 1 Trans E 26 3 25 1 75. 4 89. 2 24 3 12 5 34. 9 47. 1 Trans H (unif ) 31 8 30 3 75. 4 86. 7 21 1 8 4 42. 5 58. 5 Trans H (bern ) 40 1 38 8 73. 0 82. 3 21 2 8 7 45. 7 64. 4 Trans R (unif ) 23 2 21 9 78. 3 91. 7 22 6 7 8 43. 8 65. 5 Trans R (bern ) 23 8 22 5 79. 8 92. 0 19 8 7 7 48. 2 68. 7 CTrans R (unif ) 24 3 23 0 78. 9 92. 3 23 3 8 2 4 4 66. 3 CTrans R (bern ) 23 1 21 8 79. 4 92. 3 19 9 7 5 48. 4 70. 2 从表2. 1 中,我们可以看出: 2 8 知识图谱与深度学习 | (1)Trans R 和CTrans R 比包括Trans E 和Trans H 在内的其他模型均要表现突出。 这表明Trans R 在效率和复杂程度上找到了一个更好的权衡。 (2)CTrans R 比Trans R 要表现优异,这表明我们应当构建更细粒度的模型来解决 同一个关系下子关系复杂的多样性和相关性。CTrans R 只是一个初步的尝试,之后我们 会在工作中尝试使用更精细的模型来解决这个问题。 (3)ber n 采样的效果在Trans H 和Trans R 上都比之前的采样有所提升,尤其是在拥 有更多关系的FB15 K 上。 在表2. 2 中,我们将关系分类并且分别呈现了实验结果。①在FB15 K 上,可以发现 Trans R 在所有关系上都获得了最好的结果,尤其是: (1)预测单对单关系时,Trans R 为实体与关系的复杂相关性提供了更精确的表示, 正如图2. 2 所示的那样。 (2)在预测单对多、多对单关系时,Trans R 通过关系特定映射来区分相关实体的能 力得到了充分体现,也取得了很大提升。 表2. 2 将关系分类后在FB15 K 上的评测结果 评测指标头实体预测十命中率(% ) 尾实体预测十命中率(% ) 关系类别1-to- 1 1-to- N N-to- 1 N-to- N 1-to- 1 1-to- N N-to- 1 N-to- N unstructure d 34. 5 2. 5 6. 1 6. 6 34. 3 4. 2 1. 9 6. 6 S E 35. 6 62. 6 17. 2 37. 5 34. 9 14. 6 68. 3 41. 3 SM E (linear ) 35. 1 53. 7 19. 0 40. 3 32. 7 14. 9 61. 6 43. 3 SM E (bilinear ) 30. 9 69. 6 19. 9 38. 6 28. 2 13. 1 76. 0 41. 8 Trans E 43. 7 65. 7 18. 2 47. 2 43. 7 19. 7 66. 7 50. 0 Trans H (unif ) 66. 7 81. 7 30. 2 57. 4 63. 7 30. 1 83. 2 60. 8 Trans H (bern ) 66. 8 87. 6 28. 7 64. 5 65. 5 39. 8 83. 3 67. 2 Trans R (unif ) 76. 9 77. 9 38. 1 66. 9 76. 2 38. 4 76. 2 69. 1 Trans R (bern ) 78. 8 89. 2 34. 1 69. 2 79. 2 37. 4 90. 4 72. 1 CTrans R (unif ) 78. 6 77. 像编码器示例图 6 4 知识图谱与深度学习 | p( 1 k ) , p( 2 k ) ; , p n (k ) 整合为最终的嵌入表示e( I k ) , 即 ¢¢ · n n att(p i (k ) , eS (k) ) p i (k ) ¢ (k ) = e I (k)(k ) (2.31) i= 1 att(p ) , e j S j= 1 其中 (k)(k ) exp(p i (k ) eS (k) ) n ¢ att(p ) = , e i S exp(p j (k ) eS (k) ) (2.32 ) · j= 1 其中,e( S k ) 表示e(k ) 基于知识图谱的表示。e( S k ) 与e( I k ) 均将被用于式(2.30 ) 中进行实体 表示的训练。 2.8. 2 实验分析 \\\\\\\"知识就是力量,人工智能想要让计算机像人一样思考,同样需要知识的力量。计算机实现人工智能需要哪些知识,这些知识要如何表示、获取、计算以及使用,都是人工智能的重要研究课题。知识图谱作为人类知识结构化形成的知识系统,是人工智能研究和智能信息服务的基础核心技术,被广泛应用于搜索引擎、问答系统、智能对话系统以及