
出版社: 华中科技大学
原售价: 68.00
折扣价: 47.60
折扣购买: 面向web数据的信息抽取及融合技术研究
ISBN: 9787568068291
王君泽,1982年生,工学博士,管理学博士后,华中科技大学公共管理学院硕士生导师。2010年毕业于华中科技大学电子与信息工程系,获博士学位。主要研究方向为网络舆情、国家信息安全、公共情报管理等。目前已经在IEEE Intelligent Systems、《新闻与传播研究》、《管理世界》、《情报学报》等国内外权威刊物上发表论文多篇。主持自然科学基金项目一项。
信息抽取和融合是自然语言处理领域中的重要研究方向之一,自然语言处理技术的发展也影响着信息抽取及融合技术的进步。自然语言处理具有非常广泛的研究领域和研究方向。按照应用领域的不同,主要研究方向有: 1. 文字识别 文字识别(optical character recognition,OCR)借助计算机系统自动识别印刷体或手写体文字,把它们转换为可供计算机处理的电子文本。对于文字识别,主要研究字符的图像识别,但对于高性能的文字识别系统,往往也要同时研究语言理解技术问题。 2. 语音识别 语音识别(speech recognition)也称为自动语音识别(automatic speech recognition,ASR),其目标是人类语音中的词汇内容转换为计算机可读的书面语表示。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。 3. 机器翻译 机器翻译(machine translation)研究借助计算机程序把文字或演讲从一种自然语言自动翻译成另一种自然语言。简单来说,机器翻译就是把一个自然语言的字词变换为另一个自然语言的字词。使用语料库技术,可自动进行更加复杂的翻译。 4. 自动文摘 自动文摘(automatic abstracting)是应用计算机对指定的文章做摘要的过程,即把原文档的主要内容和含义自动归纳,提炼并形成摘要或缩写。常用的自动文摘是机械文摘,根据文章的外在特征摘选能够表达该文中心意思的部分原文句子,并把它们组成连贯的摘要。 5. 句法分析 句法分析(syntax parsing)又称自然语言语法分析(parsing in natural language),它运用自然语言的句法和其他相关知识来确定组成输入句各成分的功能,以建立一种数据结构并用于获取输入句意义的技术。 6. 文本分类 文本分类(text categorization)又称为文档分类,是在给定的分类体系和分类标准下,根据文本内容利用计算机自动判别文本类别,实现文本自动归类的过程,包括学习和分类两个过程。首先有一些文本及其属类的标准,学习系统从标注的数据中学到一个函数(分类器),分类系统利用学到的分类器对新给出的文本进行分类。 7. 信息检索 信息检索(information retrieval)又称情报检索,是利用计算机系统从海量文档中查找用户需要的相关文档的查询方法和查询过程。简而言之,信息检索是搜寻信息的科学,如在海量文件中搜寻信息、文件和描述文件的元数据或在数据库(包括相关的独立数据库或是超文本的网络数据库)中进行搜寻。 8. 信息抽取 信息抽取(information extraction)主要是指利用计算机从大量的结构化、半结构化或非结构化的文本中自动抽取特定的类信息(如事件和事实等),并使其形成结构化数据,填入数据库供用户查询使用的过程。 9. 信息过滤 信息过滤(information filtering)是指应用计算机系统自动识别和过滤那些满足特定条件的文档信息。一般指对网络有害信息的自动识别和过滤,主要用于信息安全和防护等。也就是说,信息过滤是根据某些特定要求,过滤或删除互联网中某些敏感信息的过程。 10. 自然语言生成 自然语言生成(natural language generation)是指将句法或语义信息的内部表示转换为由自然语言符号组成的符号串的过程,是一种从深层结构到表层结构的转换技术,是自然语言理解的逆过程。从生成的结果看,有语句生成、语段生成和篇章生成等形式,其中以语句生成更为基本和重要。 11. 中文自动分词 中文自动分词(Chinese word segmentation)是指使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间存在空格加以标识。中文自动分词被认为是中文自然语言处理中最基本的环节。 12. 语音合成 语音合成(speech synthesis)又称为文语转换(texttospeech conversion),是将书面文本自动转换成正确的语音表征。 13. 问答系统 问答系统(question answering system)是借助计算机系统对人提出问题的理解,通过自动推理等方法,在相关知识资源中自动求解答案,并对问题做出相应的回答。有时,回答技术与语音技术、多模态输入/输出技术以及人机交互技术相结合,构成人机对话系统。 此外,还有语言教学(language teaching)、词性标注(partofspeech tagging)、自动校对(automatic proofreading)以及讲话者识别/辨识/验证(speaker recognition/identification/verification)等。 作为语言信息处理的一个高层重要方向,自然语言理解一直是人工智能界所关注的核心课题之一。现在,自然语言理解是继专家系统和机器学习之后人工智能的又一重要和富有活力的应用研究领域。如果计算机能够真正理解自然语言,人机间的信息交流能够以人们所熟悉的自然语言来进行,那必将对人类社会进步、经济发展和改善人民生活产生重大影响,极大地方便人类的生产活动和日常生活,具有无法估量的社会效益和经济价值。 自然语言理解研究和应用的重大进展也将是人工智能和智能科学的一项重大突破,必将对科学技术的其他领域做出特别贡献,促进其他学科和部门的进一步发展,并对人们的生活产生深远的影响。继机器翻译之后,信息检索、文本分类、篇章理解、自动文摘、自动校对、词典自动编辑、文字自动识别等领域都在不同程度上要求计算机具备自动分析、理解和生成自然语言的能力。特别是互联网迅速扩展,网络上的信息资源加速度增长,在海量信息面前,人们迫切希望计算机能够具备自然语言的知识,能够帮助人们准确地获取所需的网上信息。自然语言理解研究可以使得计算机在一定程度上理解人类自然语言,从而帮助人们完成机器翻译、信息提取、信息检索、文本分类等各项工作。这对提高工作效率,丰富生活内容,推动相关领域和部门的发展都具有巨大的价值和意义。 语言是思维的载体和人际交流的工具。人类已经迈入21世纪,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信息提取、跨语言信息处理、人机交互等应用需求急速增长。随着我国现代化建设的发展,信息处理技术的自动化愈来愈显得紧迫。人类历史上用语言文字形式记载和流传的知识占到知识总量的80%以上。据统计,目前计算机的应用范围,用于数学计算的仅占10%,用于过程控制的不到5%,其余85%以上都是用于语言文字和信息处理的,并且随着计算机的普及和性能的提高、价格的降低,这一趋势还在增强,语言信息处理的技术水平和每年所处理的信息总量已经成为衡量一个国家现代化技术水平的重要标志之一。可以说,汉语自然语言理解作为中文信息自动化处理的关键技术,每提高一步给我国的科学技术、文化教育、经济建设、国家安全所带来的效益,将是无法用金钱的数额来计算的。 目前信息的爆炸式增长也将人们带入了这样的窘境:海量信息分散在世界各地,信息资源共享困难,使得人们面对海量信息变得无所适从,很难从丰富的信息资源中获取自己所需的内容。信息抽取研究就是在这种背景下产生的。 信息抽取(information extraction,IE)是指从大量文本中抽取特定的信息、对获得的信息以结构化的形式进行描述,并填充进数据库中供用户查询和使用的过程。信息抽取的主要目标是让计算机不但能找到相关的文档,而且还要找到相关的内容。 信息检索与信息抽取是信息获取的两个研究方向。信息检索就是用户以关键字的形式输入一个查询,计算机通过统计和关键字匹配等技术,从大量的文档集合中找到与用户需求相关的文档列表。信息检索不受领域的限制,可以快速地返回相关的文档列表,但是信息检索的准确率比较低,需要用户对检索结果进行人工筛选。信息抽取则是利用自然语言处理技术,对文本中的段落篇章进行分析,得到用户感兴趣的事实信息。信息抽取系统是与领域相关的,只能抽取系统预先设定好的特定领域的事实信息。 虽然信息检索与信息抽取研究的方向不同,但是将两者结合起来,可以更好地完成用户的信息处理需求。在信息抽取系统中,可以借助信息检索系统的输出作为输入;另一方面,利用信息抽取技术又可以提高信息检索系统的性能。 信息抽取技术的早期研究开始于20世纪60年代中期,它以两个自然语言处理项目为代表:一个是从20世纪60年代中期开始一直延续到80年代的Linguistic String项目,该项目的研究内容是从医院的X光报告和出院记录中抽取信息格式,这种信息格式实际就是信息抽取研究中的模板;另一个研究项目是20世纪70年代开始的有关故事理解的研究,设计实现的FRUMP系统可以从新闻报道中抽取涉及多个领域的信息。 20世纪80年代末开始,消息理解系列会议(message understanding conference,MUC)的召开促进了信息抽取研究的迅速发展。从1987年到1998年,MUC系列会议一共举办了7届,该会议由美国国防高级研究计划委员会(the Defense Advanced Research Projects Agency,DARPA)资助。MUC系列会议的宗旨是评价当今信息抽取技术的水平,促进机器理解技术的发展。由MUC定义的概念、模型和技术规范对整个信息抽取领域的研究起着主导作用。MUC系列会议采用评测驱动的会议模式,会议的主要内容是对信息抽取系统的评测,组织者在会前向参加评测的单位提供样例消息文本和有关抽取任务的说明,然后参加者开发出提取这种消息文本的信息抽取系统。在正式会议开始前,各个信息抽取系统处理给定的消息文本集合,由各个系统的输出结果与手工标注的标准结果进行比较得到最终的评测结果。然后在正式会议中,参加者就信息抽取技术进行探讨和交流。 本书以“事件”为切入点,通过介绍事件抽取、事件类型及元素识别、事件信息融合等领域发展状况,将信息抽取领域的代表性处理手段进行了系统的介绍,形成有机的整体。同时,本书在模型和技术的介绍之外,还以实际的网络舆情监测分析系统为案例,介绍在实际生产环境中对于各种模型和技术的应用。