基于语义TRIZ的专利技术挖掘
作者简介
内容简介
第1章 专利技术挖掘概述
技术挖掘(tech mining)是一种研究如何分析科技创新信息资源的技术内涵的理论方法,旨在更准确、高效地从中挖掘出有用的知识以服务于技术创新与技术管理。本章首先介绍技术挖掘与专利技术挖掘的概念。然后,介绍专利技术挖掘的典型应用场景,其中重点介绍专利技术演化分析和专利自动分类两类专利技术挖掘应用场景。最后,分析专利技术挖掘存在的问题和挑战,引出基于语义 TRIZ(theory of inventive problem solving,发明问题解决理论)的专利技术挖掘。
1.1 引言
1.1.1 技术挖掘
“十四五”时期,我国将进入新发展阶段,社会经济的运行模式也将发生重大的改变,科技创新将成为驱动社会经济可持续发展的关键要素[1]。技术创新是以创造新技术为目的的创新或以科学技术知识及其创造的资源为基础的创新,是科技创新的重要组成部分,已成为产业发展的重要推动力,在全球经济发展中扮演越来越重要的角色,一个国家的经济活力与竞争力也越来越依赖于技术创新[2,3]。在技术创新活动中,科研人员是技术创新的重要主体,而创新思想是技术创新的重要客体[3]。技术创新的过程就是在国家宏观创新政策的引领和企业机构研发规划的指导下,科研人员产生创新思想,并将其与具体技术相结合,从而产生新技术或新应用的过程[3]。
创新思想是技术创新的核心内容,源于科研人员对大量科技创新信息资源的阅读、理解、分析和利用。然而,当前科技创新信息资源数量呈现出了爆炸性增长的态势,而技术创新从思想产生到成果应用的时间间隔却逐渐缩短。因此,需要一套科学的理论体系、方法流程、工具系统来帮助科研人员快速、准确地定位和分析存在于海量科技创新信息资源中的有效信息[3]。在技术创新快速迭代与科技创新信息资源数量急剧增加的背景下,技术挖掘应运而生。
21世纪初,美国学者 Porter和 Cunningham提出了一系列基于历史科技文献进行面向未来的技术分析(future-oriented technology analysis,FTA)、创新路径预测(forecasting innovation pathways,FIP)和技术机会分析(technology opportunities analysis,TOA)的理论与方法[3]。在此基础上,Porter和 Cunningham进一步提出了技术挖掘的概念,即通过分析科技文献的技术内涵,以更准确、高效地从中挖掘出有用的知识,进而服务于技术创新与科技管理活动。技术挖掘是在了解技术创新过程的基础上,将文本挖掘技术工具应用于科技信息分析[3]。它的载体主要是已发表的科技文献,包括学术论文、专利文献等。它的分析对象除了题名、作者、专利权人等著录项信息外,还包括深入到专利文献内容层面的信息,如摘要、全文、专利权利要求等。技术挖掘采用的具体技术手段包括自然语言处理(natural language processing,NLP)、文本挖掘(text mining)、统计分析(statistical analysis)、主题模型(topic model)、知识组织系统(knowledge organization system,KOS)等。技术挖掘的目的随具体技术挖掘场景各异,Porter和 Cunningham总结了技术挖掘的主要应用场景及目的,见表1.1[3]。
表1.1 技术挖掘应用场景
1.1.2 专利技术挖掘
科技创新信息资源的可靠性、准确性与权威性对技术挖掘结果的指导和参考价值十分重要。专利文献属于科技文献的一种,是各国专利主管部门、国际性知识产权组织及科技信息出版商在审批专利、再加工专利信息的过程中产生的官方文件及其衍生出版物的总称[4]。专利文献是世界上最大的科学技术信息源之一,目前全世界专利数量超过1.3亿件,专利家族超过4600万项[5];虽然每年出版的专利文献数仅占科技出版物总数的1/4,但其内容却覆盖了90%~95%的世界科技信息[6-8]。除此之外,专利文献提供的科技信息比其他科技信息资源领先5~6年,且内容更为翔实准确[6-8]。可见,专利文献具有数量巨大、内容新颖、描述详细、格式规范、分类科学、质量可靠等特点[4,6,9],它是一种理想型技术挖掘载体,是技术挖掘使用率最高的科技创新信息资源。
专利信息包含于专利文献中,由关于发明创造相关内容的技术信息、专利保护范围等法律信息以及专利权转让或转移等经济信息组成[4,10]。随着科学技术的飞速发展,专利活动日益活跃,专利数量迅猛增长,专利信息也处于爆发式增长的阶段,如何利用技术手段高效、精准地从海量专利信息中挖掘出隐性价值和有效知识逐渐成为探讨和研究的焦点[6,11]。据世界知识产权组织估算,如果能够有效利用专利信息,可以帮助企业缩短平均60%的技术研发周期,节约40%的科研经费[8]。对用户来说,专利应用的瓶颈正从如何获取专利文献转向如何有效挖掘专利信息的价值[12,13]。
专利技术挖掘是一种专门针对专利文献中技术信息的特殊的技术挖掘,是一套辅助技术创新的理论与方法[3,12]。它采用自然语言处理、文本挖掘、语义分析等技术手段,通过对专利文献中的显性、隐性技术信息进行抽取、分析、挖掘,从主体和内容角度对专利文献中包含的技术特征等进行深层次分析,帮助用户了解领域技术现状及发展趋势[3,12,14]。通过专利技术挖掘,可分析领域源头技术、核心技术、空白技术、跨学科交叉技术等,形成技术发展、演化、扩散知识地图。宏观层面上,专利技术挖掘可应用于面向未来的技术预见与技术监测,为国家制定相关技术发展政策提供决策支撑。中观层面上,专利技术挖掘可帮助研发机构了解技术及资源分布等技术竞争情报,为它们规划自身的研发战略提供指导。微观层面上,专利技术挖掘可用于聚焦新技术研发,作为改善和创造其他新技术专利的基础,帮助研究人员进行具体技术创新活动[3,12,15]。
总之,技术挖掘已成为推动技术创新的重要工具与手段,而专利技术挖掘作为一种基于专利信息挖掘的辅助技术创新理论与方法,被广泛应用于制定科技政策、规划研发战略与指导具体发明创造等活动中。专利技术挖掘的基础是专利文献中的显性与隐性技术信息。因此,需要研究如何分析、组织与应用这些技术信息,这对更有效地支持各种专利技术挖掘应用具有重要意义。
1.2 典型应用场景
专利技术挖掘作为一种特殊的技术挖掘,其典型应用场景包括专利技术演化分析、专利自动分类、颠覆性技术识别、技术主题聚类、技术创新路径识别、核心专利判别、热门专利预测、技术跨界应用分析、技术趋势分析、面向 TRIZ的智能检索等[12,16-18]。
1.2.1 专利技术演化分析
专利技术演化分析是通过分析技术产生、发展、突破创新、转移乃至湮灭的过程,描绘出技术历史发展进程,是专利技术挖掘的重要内容之一[19]。专利技术演化分析的主要目的是挖掘领域核心基础技术、新兴技术、萌芽技术等,梳理技术发展脉络和内部技术活动的发展历史,反映技术活动现状,为探究和回溯技术起源与发展提供可靠帮助,对识别科技优先领域、合理配置科技资源具有重要意义[20],能为制定研发策略提供参考。根据其应用场景与分析对象不同,专利技术演化分析方法可分为文献计量学方法、 TRIZ技术进化理论及专利文本挖掘方法三种[21,22]。
1.文献计量学方法
文献计量学方法是直接基于专利文献现有分类号等著录项信息以及引用数据等,利用统计、数据挖掘等技术方法进行定量分析[21,22]。文献计量学方法以描述技术历史发展为主,主要用于宏观或中观层面上的专利技术演化分析。文献计量学方法包括基于专利分类号的分析、基于专利引用关系的分析、计量指标分析和共词分析等[23]。
专利分类号按照技术属性对专利进行分类,以便于专利组织、管理和检索,可认为是一种对专利技术内容的标准化表示[24]。基于专利分类号的分析方法是以专利分类号为对象,通过对专利分类号所属专利及其相关信息进行数量统计、频次分析以及专利分类号共现分析(即共类分析,假设共同出现的专利号具有一定的关联性)等,探究专利分类号随时间的演变情况,从而揭示某一技术领域内的技术演化过程及其发展趋势[25]。例如,栾春娟通过构建专利分类号共现矩阵,划分多个时间段,分别绘制共现网络图并进行对比分析,从而发现太阳能关键技术演化路径[26]。基于专利分类号的方法具有数据易获取等优点,但无法深入专利文本,导致分析结果较为浅显且缺乏直观性,因此很难通过这种方法详细了解技术演化的过程和趋势[25]。
基于专利引用关系的分析方法是通过分析专利之间的引用关系以揭示专利技术之间的联系和演进关系,目前已成为研究专利技术发展脉络、技术选择及预测等的重要研究手段[20,27]。专利引用关系可以体现技术之间的继承和发展关系,也可以展示出不同技术领域之间的交叉、融合和分化关系;根据专利之间的引用关系(包括共引、耦合等)可以聚集相似的专利技术,形成具有不同技术主题的聚簇,从而判断技术发展的趋势[20,27]。目前主要的研究方法有专利引用量统计分析、专利共被引分析、专利耦合分析、专利引文时序分析,以及一些分析指标,如技术生命周期、科学强度[20]。但该方法也存在一些缺陷,例如,专利引用本身可能存在漏引、偏引等问题,很难全面把握专利之间的关系;基于专利引用关系的分析没有深入文本,不能准确地解释专利之间的技术主题相似度和专利之间的内在联系[25,28]。
2. TRIZ技术进化理论
TRIZ技术进化理论最早由阿奇舒勒(G. S. Altshuller)于20世纪50年代提出,
该理论认为,技术系统的进化存在着一定的客观规律,这种规律在不同技术领域中反复出现,而技术问题、技术矛盾和冲突的不断解决是推动技术系统进化的动力[20,21,29]。在提出初期,TRIZ技术进化理论一直被当作用于解决具体技术问题的一个附加工具,并未得到重视。直到2001年,Domb和 Roland提出策略性 TRIZ和战略性 TRIZ的区分[30],TRIZ技术进化理论才开始成为一个独立的研究对象,对 TRIZ技术进化理论的研究与日俱增,多种新兴的 TRIZ技术进化理论得到迅速发展[31]。经典 TRIZ技术进化理论的核心是阿奇舒勒提出的四阶段理论和技术系统八大进化法则[29]。四阶段理论是阿奇舒勒通过对大量专利进行分析后总结出的规律,即产品进化过程满足生物进化中的 S曲线,同一代产品进化分为四个阶段,分别为婴儿期、成长期、成熟期、退出期,这一曲线又被称为 TRIZ技术成熟度曲线[21,30,31]。技术系统八大进化法则具体包括完备性法则、能量传递法则、动态性进化法则、提高理想度法则、子系统不均衡进化法则、向超系统进化法则、向微观级进化法则、协调性法则[21,30,31]。
TRIZ技术进化理论通常以特定技术系统为研究对象,基于 TRIZ技术系统八大进化法则,采用技术成熟度曲线(S曲线)或者雷达图等方法对技术系统未来可能的进化模式进行预测[21,22]。TRIZ技术进化理论以技术预测为导向,常用于辅助制定研发战略[21,22]。基于 TRIZ思想的“技术问题—技术方案”启发式方法现已成为技术范式演化分析的依据,广泛应用于各个领域内对技术进化轨迹的连续性和稳定性研究[20]。
3.专利文本挖掘方法
专利文本挖掘方法本质上属于文献计量学方法,但其分析对象不是直接来源于专利文献的著录项信息,而是来自专利文本,包括专利文献的题名、摘要和权利要求等字段。根据分析对象的不同,又可将这种方法分为基于关键词与基于“主语-谓语-宾语”(subject-action-object,SAO)结构两种[32]。
基于关键词的专利技术演化分析以从文本中提取的关键词作为分析对象,通过对关键词