什么是信息抽取
信息抽取是为从文本中选择出的信息创建一个结构化的表示形式,然后将转换后的结构化、半结构化的信息存储在数据库里用户查询或进一步的分析使用。
信息抽取技术的发展
美国国防高级研究计划委员DARP资助的MUC(Message Understanding Conference)会议在1998年的MUC一7
信息抽取的作用
作为一种新兴发展起来的Internet信息处理技术,信息抽取在众多领域表现出强大的功能和美好的发展前景。
(一)从满足用户信息需求的角度来看,信息抽取是其他信息获取手段的一种有益补充
随着Internet的发展,如何从如此巨大的网络信息源中获取用户需要的信息(知识)是人工智能和Internet研究的一个主题。信息检索严格来说是文档检索、文本分类、文本过滤、文本聚类等技术,可以从一个大的文档集合中找出用户需要的相关文档,而IE技术却可以从相关文档中抽取出粒度更小的关系或事件,满足用户更深层次和更细粒度的信息需求。从这个意义上说,IE是上述文档信息处理技术的一种有益补充。
(二)从技术实现的角度来看,信息抽取为其他信息获取技术提供支持
IE作为一种将非格式化信息转换为格式化信息的一种手段,它既可以应用于传统的信息检索系统之中,也可以集成到一些数据库应用系统,为进一步的信息处理如数据库查询、数据挖掘、文本挖掘等打下了基础。此外,还能对信息检索(IR)、知识问答(QA)、个性化信息服务等的实现起功能上的支持作用,或者提高它们的性能。
(三)从工程角度看,信息抽取将对以下应用领域产生重要作用
1.情报收集。情报部门通常需要监控收集敌对国家、网络舆情、恐怖组织活动的各种文献资料。传统上,这种工作需要雇佣大量专门人员阅读、分析和整理。IE的引入,有利于自动化情报监控,及时发现热点事件和焦点事件。
2.科技文献监控。IE系统也可用来辅助进行科技文献的监控任务,获取某学科或技术领域的研究进展情况。例如,对于芯片工艺一些技术参数的抽取,将为有关研究和开发提供有效的支持。
3.医疗保健服务。医疗保健机构以及健康保险部门可以利用信息抽取系统,获取病人的症状、诊断情况、化验结果以及治疗情况,以便更好地提供医疗服务和保险服务。
4.商业信息抽取。可以设计专门的IE系统,分析新闻中的商业信息,抽取诸如有关公司的合并、合并的参与方以及合并涉及的金额等信息,提供决策支持信息。
信息抽取技术的发展趋势
经过十几年来的不断发展,局限于目前的技术水平,印欧语言在信息抽取方面的研究已经取得了一定的成果,但是中文信息抽取研究相对滞后。目前信息抽取呈现出如下的发展趋势:
(一)信息抽取的范围不断扩大
从信息抽取的信息源看,早期的信息抽取主要集中于自由文本,现在的信息抽取则扩展到话语信息抽取和Web页面信息抽取。从信息抽取的领域看,已从军事、政治、医学等领域,扩散到商业、科技等领域一且仍有进一步扩大的趋势。
(二)信息抽取技术的多样化
信息抽取一般与领域性知识有较紧密的关系,因此,最初的信息抽取与子语言的处理技术也极为相似,正规文法、上下文无关文法和自动机技术等应用得较为广泛。随着语料库的成功构建,特别是Web页面的迅猛增长,基于统计的技术和机器学习方法在信息抽取方面发挥着越来越重要的作用。可以说,信息抽取技术已摆脱了狭义的自然语言理解技术的束缚,向着多样化的方向发展。
(三)知识获取的进一步自动化
系统在领域间的可移植性问题,关系着信息抽取技术适用范围的大小。知识的自动获取就是针对这个问题而提出的,并经历了手工编码、半自动获取和自动获取三个发展阶段,知识的自动获取已成为信息抽取技术的核心。
信息抽取存在的问题及策略
信息抽取研究的最终目标是建立具有较高性能和较好可移植性的IE系统。但是,到目前为止,IE并未和IR一样被广泛应用。原因在于现有IE系统的性能不高,存在如下问题。
(一)知识获取自动化方面的问题
第一,目前还没有提出标准的知识框架。领域之间所需知识差别很大,通用的知识框架能帮助快速获取这些知识;其次,知识的自动获取范围较窄。目前仅限于规则模式的自动获取,而对于如CRYSTAL等至关重要的概念层次等仍由手工编码完成;第三,自动化的程度仍偏低,要求一定的手工参与。因此,知识获取自动化仍是研究的重点。
(二)IE系统中需要的领域相关的模式库和模式匹配功能相分离
按照模式匹配方法实现的一个完整的IE系统由两大功能模块组成:模式获取模块和模式匹配模块。前者从一个训练语料中获取模式并将之放到一个模式库中;后者从模式库中取出模式并进行实际的信息抽取。由于采用了这种将模式库从模式匹配功能模块中分离出来的作法,当该系统要从各新领域中进行新任务的IE时,只需将模式库中的模式更新为适合该IE领域任务的模式,而不必修改IE系统的其他功能,大大地改善了系统的可移植性。
(三)用部分句法分析代替完全句法分析
自由文本中的事件IE模式只能通过语法和语义两个方面来对可能含有事件描述的文本片段进行约束,而语法包括词法和句法。从完成事件IE所需句法信息的层次来看,部分句法分析所能提供的句法信息就足够了。因而目前最新的IE系统都采用部分句法分析来代替完全句法分析。部分句法分析器仅完成对句子中的名词群组、动词群组和介词群组等的识别,因而分析的正确率高、运行速度快。而完全句法分析器的分析正确率较低、运行速度较慢。
(四)采用机器学习方法自动获取IE模式
采用机器学习方法来学习能够指导进行事件IE的领域相关模式规则或统计模型,并不断地改进这些机器学习方法,使得在学习的准备阶段、学习的过程中和学习完成后的模式验证阶段减少用户的工作量并降低对用户的技能要求。目前最新的做法是只要求用户提供几个可以轻易想到的有代表性的IE模式,相应的模式学习方法就可以从一个未经分类的文档集合中学出更多的模式并同时完成对文档的相关性分类。
(五)设计各种跨领域的IE模式表达方式
针对从自由文本中进行英文事件的IE,人们设计了各种各样的模式表达方式。无论这些模式表达方式如何不同,它们都充分利用了语法信息和语义信息的概括约束作用,而且当IE系统从一个领域的IE转向对另一个领域的IE时,这些模式表达方式是同定不变的。
(六)设计图形用户界面
用户通过设计图形用户界面可以方便、快捷地配置IE系统所需的领域相关知识,从而便于系统从对一个领域的IE转向对另一个领域的IE。
(七)使用领域无关的概念层次知识库的支持
各种事件IE模式都利用了语法信息和语义信息的概括约束作用。其中,语义信息的概括约束作用是通过将模式中的某些概念元素用它们的上位概念代替来完成的,而这就需要一个概念层次知识库的支持。这个概念层次知识库由领域相关的概念知识和领域无关的概念知识两部分组成,而领域无关部分的概念知识可以直接采用现成的领域无关的概念层次知识库,需要用户手工生成的只是领域相关的概念层次知识库部分,这自然大大减轻了用户在IE模式获取过程中的工作量。
(八)信息抽取系统适应性问题
目前,在特定的领域构建信息抽取系统,技术上已基本成熟,但知识的自动获取实际上仍没有达到完全自动,在构建通用的知识学习器方面,应实现如下目标:
1.适应新的领域信息。构建系统资源(如词库、知识库等),并设计新的模板使系统可以处理一些特定领域的概念。
2.适应不同子语言特征。修改语法和词库,使系统能处理应用或领域内典型的特定语言结构。
3.适应不同的文本流派。特定流派的文本(如医学结论、科学论文、政策报告等)具有特定的词汇、语法和篇章结构。
4.适应不同类别的文本。基于Web的文档可能与新闻报纸之类的文本有着强烈的差别,必须能适应不同的情况。
信息抽取系统的体系结构
从广义上来说,信息抽取不仅是文本的抽取,还有其他形式的信息,总的来说就是从一些海量信息里抽取出一些信息并以结构化的形式来存储。从狭义上来说,信息抽取主要是针对文本信息的抽取,从原始文本中抽取信息,并依次填入模板的相应槽中。
基于完全句法分析和浅层句法分析的信息抽取系统的体系结构可能会有所不同,但大体相同。ClaireCardie提出的基于句法分析的一种信息抽取系统的体系结构,由右图所示。
该结构由5个部分组成:(1)符号化和标注。对文本进行分段、分句,然后进行词性的标注。(2)句法分析。确定句法成分和语义实体,识别出其中的动词词组、名词词组等句法成分,以抽取出与领域相关的各类命名实体。本阶段可以采用完全句法分析或者部分句法分析,区别在于是否为每个句子生成完整的、详细的句法树。(3)抽取。在抽取过程中,系统识别特定领域的文本中各实体之间的关系,并根据抽取任务将相关的信息抽取出来,填充到输出模板的槽中。(4)合并,即指代消解。在遇到重复的实体时,系统首先检查文本中这两个实体是否指向同一个实体,如果是则合并。指代消解是个比较困难的过程,其结果直接影响到信息抽取的性能。(5)生成模板。这个阶段主要完成模板的生成,是基于领域知识的最好体现。根据领域知识,通过推理判断,选择输出模板的某个槽。当待输出文本中有不同的事件,如时间、地点等,则需要填入到不同的槽中。
信息抽取和信息检索之间的关系
信息抽取与信息检索都是对信息进行处理的技术,但两者存在着明显的差异,主要表现在以下三个方面:
1.功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;信息抽取系统则旨在从一个文本中直接获得用户感兴趣的事实信息。
2.处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合,不需要对文本进行深人分析理解;信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。
3.适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。信息抽取技术可视为信息检索技术的一个深化。信息检索从文档的集合中寻找与用户要求相关的文本或段落。信息抽取则是在相关文本或段落的基础上,发现用户需要的信息。这两种技术是互补的,信息抽取系统通常以信息检索系统的输出作为输入。
反之,也可在信息抽取的基础上,进行高精度的信息检索,二者的结合能够更好地服务于用户的信息处理需求。
信息检索一般对文本的语义不进行分析,而由用户对文本的语义做出解释。信息抽取则由系统分析文本的语义在此基础上给出用户需要的信息。