文本数据挖掘/中国科学院大学研究生教学辅导书系列

文本数据挖掘/中国科学院大学研究生教学辅导书系列
作者: 宗成庆//夏睿//张家俊
出版社: 清华大学
原售价: 75.00
折扣价: 60.75
折扣购买: 文本数据挖掘/中国科学院大学研究生教学辅导书系列
ISBN: 9787302519904

作者简介

宗成庆 中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授。主要从事自然语言处理、机器翻译、人机对话系统和文本数据挖掘等相关研究,主持国家项目10余项,发表论文200余篇,出版专著《统计自然语言处理》一部和译著两部。目前担任国际计算语言学委员会(ICCL)委员、亚洲自然语言处理学会(AFNLP)主席和中国中文信息学会副理事长等职务,是学术期刊ACM TALLIP副主编、《自动化学报》副主编和IEEE Intelligent Systems等期刊的编委,曾任国际顶级学术会议ACL-IJCNLP2015程序委员会主席,IJCAI2017、IJCAI-ECAI2018和AAAI2019领域主席。获国家科技进步奖二等奖、“钱伟长中文信息处理科学技术奖”一等奖和中国科学院教育教学成果奖二等奖,获北京市优秀教师、中国科学院优秀导师等荣誉称号。享受国务院政府特殊津贴。 夏睿 南京理工大学计算机学院教授、博士生导师。主要从事自然语言处理、文本数据挖掘、情感分析与观点挖掘等领域的研究。在国际知名学术期刊和会议上发表论文40余篇,主持国家省部级科研项目近10项。担任多个国际顶级会议的领域主席、高级程序委员会委员和程序委员会委员。2014年入选南京理工大学紫金之星人才计划,2016年获得首届江苏省优青项目资助,2017年入选南京理工大学青年拔尖人才计划并破格晋升为教授。 张家俊中科院自动化所模式识别国家重点实验室副研究员,研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。目前担任中国中文信息学会机器翻译专委会副主任等职务。发表高水平学术论文60余篇,曾四次获得最佳论文奖。担任多个国际顶级学术会议的领域主席和高级程序委员会委员。获中国中文信息学会2014年“钱伟长中文信息处理科学技术奖”一等奖和2018年“汉王青年创新奖”。2015年入选中国科协首届“青年人才托举工程”计划。

内容简介

第 1章绪论 数据挖掘( data mining)技术近年来备受关注,在快速发展的大数据时代展现了极其重要和广泛的应用前景。根据文献 [Han et al., 2012]给出的广义解释,数据挖掘是指从大量数据中挖掘有趣模式和知识的过程。其中,数据源包括数据库、数据仓库、 Web、其他信息存储库或动态地流入系统的数据。由于这项技术最早起源于从数据库中发现和提炼有用的知识,因此这一术语的英文通常写作 knowledge discovery in database(KDD)。 本书介绍从自然语言文本中挖掘用户所感兴趣的模式和知识的方法和技术,这项技术我们称之为文本数据挖掘( text data mining),有时候也简称为文本挖掘( text mining)。这里所说的文本包括普通 TXT文件、 doc/docx文件、 PDF文件和 HTML文件等各类以语言文字为主要内容的数据文件。 1.1基本概念 与广义的数据挖掘技术相比较,除了解析各类文件(如 doc/docx文件、 PDF文件和 HTML文件等)的结构所用到的专门技术以外,文本数据挖掘的最大挑战在于对非结构化自然语言文本内容的分析和理解。这里需要强调两个方面:一是文本内容几乎都是非结构化的,而不像数据库和数据仓库,都是结构化的;二是文本内容是由自然语言描述的,而不是纯用数据描述的,通常也不考虑图形和图像等其他非文字形式。当然,文档中含有图表和数据也是正常的,但文档的主体内容是文本。因此,文本数据挖掘是自然语言处理( natural language processing, NLP)、模式分类( pattern classi?cation)和机器学习( machine learning, ML)等相关技术密切结合的一项综合性技术。 所谓的挖掘通常带有“发现、寻找、归纳、提炼”的含义。既然需要去发现和提炼,那么,所要寻找的内容往往都不是显而易见的,而是隐蔽和藏匿在文本之中的,或者是人无法在大范围内发现和归纳出来的。这里所说的“隐蔽”和“藏匿”既是对计算机系统而言,也是对用户而言。但无论哪一种情况,从用户的角度,肯定都希望系统能够直接给出所关注的问题的答案和结论,而不是像传统的检索系统一样,针对用户输入的关键词送出无数多可能的搜索结果,让用户自己从中分析和寻找所要的答案。粗略地讲,文本挖掘类型可以归纳成两种,一种是用户的问题非常明确、具体,只是不知道问题的答案是什么,如用户希望从大量的文本中发现某人与哪些组织机构存在什么样的关系。另一种情况是用户只是知道大概的目的,但并没有非常具体、明确的问题,如医务人员希望从大量的病例记录中发现某些疾病发病的规律和与之相关的因素。在这种情况下,可能并非指某一种疾病,也不知道哪些因素,完全需要系统自动地从病例记录中发现、归纳和提炼出相关的信息。当然,这两种类型有时并没有明显的界限。 文本挖掘技术在国民经济、社会管理、信息服务和国家安全等各个领域中都有非常重要的应用,市场需求巨大,如对于政府管理部门来说,可以通过分析和挖掘普通民众的微博、微信、短信等网络信息,及时准确地了解民意、把握舆情;在金融或商贸领域通过对大量的新闻报道、财务报告和网络评论等文字材料的深入挖掘和分析,预测某一时间段的经济形势和股市走向;电子产品企业可随时了解和分析用户对其产品的评价及市场反应,为进一步改进产品质量、提供个性化服务等提供数据支持;而对于国家安全和公共安全部门来说,文本数据挖掘技术则是及时发现社会不稳定因素、有效掌控时局的有利工具;在医疗卫生和公共健康领域可以通过分析大量的化验报告、病例、记录和相关文献、资料等,发现某种现象、规律和结论等等。 文本挖掘作为多项技术的交叉研究领域起源于文本分类( text classi?cation)、文本聚类( text clustering)和文本自动摘要( automatic text summarization)等单项技术。大约在 20世纪 50年代文本分类和聚类作为模式识别的应用技术崭露头角,当时主要是面向图书情报分类等需求开展研究。当然,分类和聚类都是基于文本主题和内容进行的。 1958年 H.P. Luhn提出了自动文摘的思想 [Luhn, 1958],为文本挖掘领域增添了新的内容。 20世纪 80年代末期和 90年代初期,随着互联网技术的快速发展和普及,新的应用需求推动这一领域不断发展和壮大。美国政府资助了一系列有关信息抽取( information extraction, IE)技术的研究项目, 1987年美国国防高级研究计划局( DARPA)为了评估这项技术的性能,发起组织了第一届消息理解会议( Message Understanding Conference, MUC1)。在随后的 10年间连续组织的 7次评测使信息抽取技术迅速成为这一领域的研究热点。之后,文本情感分析( text sentiment analysis)与观点挖掘( opinion mining)、话题检测与跟踪( topic detection and tracking)等一系列面向社交媒体的文本处理技术相继产生,并得到快速发展。今天,这一技术领域不仅在理论方法上快速成长,在系统集成和应用形式上也不断推陈出新。 1.2文本挖掘任务 正如前面所述,文本挖掘是一个多项技术交叉的研究领域,涉及内容比较宽泛。在实际应用中通常需要几种相关技术结合起来完成某个应用任务,而挖掘技术的执行过程通常隐藏在应用系统的背后。例如,一个问答系统( question and answering, Q&A)通常需要问句解析、知识库搜索、候选答案推断和过滤、答案生成等几个环节,而在知识库构建的过程中离不开文本聚类、分类、命名实体识别( named entity recognition, NER)、 1http://www-nlpir.nist.gov/related projects/muc/ 1.2文本挖掘任务 关系抽取和消歧等关键技术。因此,文本挖掘通常不是一个单项技术构成的系统,而是若干技术的集成应用。以下对几种典型的文本挖掘技术做简要的介绍。 (1)文本分类文本分类是模式分类技术的一个具体应用,其任务是将给定的文本划分到事先规定的文本类型。例如,根据中国图书馆分类法(第五版) 1,所有图书按其学科内容被划分成五大类:马列主义、毛泽东思想,哲学,社会科学,自然科学和综合性图书,并细分成 22个基本大类。“新浪网” 2首页划分的内容类别包括:新闻、财经、体育、娱乐、汽车、博客、视频、房产等。如何根据一部图书或者一篇文章的内容自动将其划归为某一种类 别,是一项具有挑战性的任务。本书第 4章详细介绍文本分类技术。 (2)文本聚类文本聚类的目的是将给定的文本集合划分成不同的类别。通常情况下从不同的角度可以聚类出不同的结果,如根据文本内容可以将其聚类成新闻类、文化娱乐类、体育类或财经类等,而根据作者的倾向性可以将其聚成褒义类(持积极、支持态度的正面观点)和贬义类(持消极、否定态度的负面观点)等。文本聚类和文本分类的根本区别在于:分类事先知道有多少个类别,分类的过程就是将每一个给定的文本自动划归为某个确定的类别,打上类别标签。而聚类则事先不知道有多少个类别,需要根据某种标准和评价指标将给定的文档集合划分成相互之间能够区分的类别。但两者又有很多相似之处,所采用的算法和模型有较大的交集,如文本表 示模型、距离函数、 K-means(K-均值)算法等。本书第 5章详细介绍文本聚类技术。 (3)主题模型通常情况下每一篇文章都有一个主题和几个子主题,而主题可以用一组词汇表示,这些词汇之间有较强的相关性,且其概念和语义基本一致。我们可以认为每一个词汇都 通过一定的概率与某个主题相关联。反过来,也可以认为某个主题以一定的概率选择某个词汇。因此,我们可以给出如下简单的式子: p (词i|文档j )=三p (词i|主题k) × p (主题k|文档j ) 由此,可以计算出文档中每个词汇出现的概率。为了从文本中挖掘隐藏在词汇背后的主题和概念,人们提出了一系列统计模型,称为主题模型( topic model)。本书第 6章详细介绍主题模型。 (4)情感分析与观点挖掘 所谓的文本情感是指文本作者所表达的主观信息,即作者的观点和态度。因此,文本情感分析( text sentiment analysis)又称文本倾向性分析或文本观点挖掘( opinion 1https://baike.baidu.com/item/中国图书馆图书分类法 /1919634?fr=aladdin 2https://www.sina.com.cn/ mining),其主要任务包括情感分类( sentiment classi?cation)和属性抽取等。情感分类可以看作是文本分类的一种特殊类型,它是指根据文本所表达的观点和态度等主观信息对文本进行分类,或者判断某些(篇)文本的褒贬极性。例如,某一特殊事件发生之后(如马航 MH370飞机失联、联合国主席潘基文参加中国纪念反法西斯战争胜利和抗日战争胜利 70周年阅兵活动、韩朝领导人对话等),互联网上有大量的新闻报道和用户评论,如何从这些新闻和评论中自动了解各种不同的观点(倾向性)呢?某公司发布一款新的产品之后,商家希望从众多用户的网络评论中及时地了解用户的评价意见(倾向性)、用户年龄区间、性别比例和地域分布等,以帮助公司对下一步决策做出判断。这些都属于文本情感分析所要完成的任务。 本书第 7章介绍文本情感分析和观点挖掘技术。 (5)话题检测与跟踪话题检测通常指从众多新闻事件报道和评论中挖掘、筛选出文本的话题,而多数人关心、关注和追踪的话题称为“热点话题”。热点话题发现( hot topic discovery)、检测和跟踪是舆情分析、社会媒体计算和个性化信息服务中一项重要的技术,其应用形式多种多样。例如,“今日热点话题”是从当日所有的新闻事件中筛选出最吸引读者眼球的报道,“2018热门话题”则是从 2018年全年(也可能是自 2018年 1月 1日起到当时某一 时刻)的所有新闻事件中挑选出最受关注的前几条新闻。本书第 8章介绍话题检测与跟踪技术。 (6)信息抽取信息抽取是指从非结构化、半结构化的自然语言文本(如网页新闻、学术文献、社交媒体等)中抽取实体、实体属性、实体间的关系以及事件等事实信息,并形成结构化数据输出的一种文本数据挖掘技术 [Sarawagi, 2008]。典型的信息抽取任务包括命名实体识别、实体消歧、关系抽取和事件抽取。近年来,生物医学文本挖掘( biomedical/medical text mining)技术备受关注。生物医学文本挖掘指的是专门针对生物和医学领域的文本进行的分析、发现和抽取。例如,从大量的生物医学文献中研究发现某种疾病与哪些化学物质(药物)存在关系,或从大量医生记录的病例中分析、发现某些疾病的诱因或某种疾病与其他疾病之间的关系等。与其他领域的文本挖掘相比,生物医学领域的文本挖掘面临很多特殊问题,如文本中存在大量的专用术语和医学名词,甚至还有习惯用语,例如临床上使用的一些行话或者实验室命名的一些蛋白质名称等。另外,不同来源的文本格式差异很大,如病历、化验单、研究论文、公共健康指南或手册等有很大的区别。还有,如何表示和利用生物医学领域的常识,如何获取大规模标注语料等,这些都是该领域面临的特殊问题。另外,金融领域的文本挖掘技术也是近年来研究的一大热点。如从普通用户或监管部门的角度通过可获取的财务报告、公开报道、社交网络的用户评论等信息分析某家金融企业的运营状况和社会声誉,从企业的角度通过分析内部各类报告预警可能存在的风险,或者通过分析客户数据把控信贷风险等。 需要说明的是,信息抽取中的关系通常是指两个或多个概念之间存在的某种语义联系,关系抽取就是自动发现和挖掘概念之间的语义关系。事件抽取通常是针对特定领域 随着计算机网络和移动通信技术的快速发展和普及,面向网络或移动终端用户的文本大数据挖掘技术越来越多地受到各个领域的高度关注,具有极其广阔的应用,同时这项研究涉及机器学习、自然语言处理和人工智能等多个领域和学科,开展这项研究对于推动相关学科的发展具有重要的理论意义。 本书阐述文本数据挖掘的理论模型、实现算法和相关应用,通过实例从原理上对相关技术的理论方法和实现算法进行阐述,言简意赅,深入浅出,使读者能够在充分理解基本原理的基础上掌握应用系统的实现方法。 本书列入“中国科学院大学研究生教学辅导书系列”,可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。