什么是Web信息抽取
Web信息抽取是将Web作为信息源的一类信息抽取,就是从半结构化的Web文档中抽取数据。其核心是将分散Internet上的半结构化的HTML页面中的隐含的信息点抽取出来,并以更为结构化、语义更为清晰的形式表示,为用户在Web中查询数据、应用程序直接利用Web中的数据提供便利。
将信息从Web网页中抽取出来。主要是由包装器(Wrapper)来完成。所谓包装器其实是一个软件程序,这个程序是由已经制定好的一系列信息抽取规则和使用这些规则的程序构成。对于用户特定信息源的查询请求,从Web页面的信息源找出相关有用的数据抽取出来,并转换为用规定的格式描述的数据,返回给用户。一个包装器一般针对某一种特定的信息源中的一类页面。从多个不同信息源中抽取数据,需要一套的分装器程序库。
Web信息抽取技术的分类
关于Web信息抽取技术的分类方式有多种:依据自动化不同程度可以将Web信息抽取分为人工方式、半自动化方式和全自动化方式三大类信息抽取。这种分类方式主要根据Web信息抽取的核心—-包装器(Wrapper) 成方式的不同来分类的,采用人工方式信息抽取的系统主要有:W4F、informia、ANDES等,采用自动半自动化方式信息抽取的系统主要有:XWRAP、WIEN、Softmealy、Stalker等。
根据各种信息抽取工具所采用的原理不同,可以将现有的信息抽取分为5类:基于自然语言处理(NLP1的方法、包装器(Wrapper)归纳方式的方法、基于ontology方式的方法、基于HTML结构的方法和基于web查询的方法。
1.基于自然语言处理(NLP)方式的信息抽取
基于自然语言处理(NLP)方式方法的抽取过程一般可归为:语音、词、词性语法分析、语义标注、专有对象的识别(如人物,公司)和抽取规则。如果Web页中包含大量文本(特别针对于合乎文法的文本)比较适用于这类方法,它在一定程度上使用了传统自然语言处理技术。把网页中的文本部分分割成多个句子,对每一个句子的句子成分进行标注,然后将标注好的句子语法结构和事先定制的语言模式(规则)匹配,获得句子的内容,其实就是利用句子的结构、短语和句子间联系建立基于语法和语义的抽取规则。从而实现信息抽取。规则可以人工制定,也可从人工标记的语义库中主动学习得到。基于自然语言处理方式的难点在于:抽取速度和慢,信息抽取与文本理解之间存在比较大的不同信息抽取只关注相关的抽取内容,而文本理解则要能理解作者的用意和目的。采用这种原理的典型的系统目前有RAPIER,SRV,WNISK。
2. 基于包装器归纳方式的信息抽取
采用这种信息抽取方式的原理是先由用户标注一组Web页面文档作为样本例子使用机器学习方式的归纳算法,生成某种基于定界符的抽取方法,自获得待抽取数据在Web页中的结构特征,从而实现数据抽取。一般过程是先选定样本页面和模式,生成模式信息和抽取规则,存入知识库;后利用知识库对其他同类页面自动地抽取信息,将得到的信息按对象关系模型进行重组后存放在数据库,以支持查询及各种应用。这类信息抽取的方式与基于自然语言理解方式的信息抽取技术相比.它最大的区别在于仅仅使用语义项的上下文来界定信息,而没有使用语言的语法约束。目前采用这种方式的典型系统有STALKER。SOHTMEALY,WIEN。
3.基于ontology方式的信息抽取
Ontology 最早是一个哲学的范畴,从哲学的范畴来说。“Ontology”指的是对自然存在的一个系统的阐述,它关心的是客观事物的抽象本质。Ontology应用在计算机领域可以构造对象模型,以及对象的关系和属性。基于ontology 方式的信息抽取首先需要构建一个知识库,知识库包含各个元素一系列的属性和关系。在进行信息抽取之前,将包含有数据的各个记录块分隔开来,在对各个记录块分个抽取。这种抽取方式不依赖于任何结构和表现形式,它使用本体来界定主要信息并根据这些信息元素构造对象。不过,它首先需要专家花费很长时间构建一个完整的本体库,再利用本体库得到的形式化地表达。还要利用这些定义关系参与网页中文本的语法分析,并把语法分析获得的结果和本体标记规则相结合,一起生成信息标记器。最后运用信息抽取器获得有用的信息。
4.基于HTMI结构的信息抽取
基于HTMI结构的信息抽取就是先根据Web页面的结构特点,定位要抽取的信息。在对信息抽取之前,使用解析器把Web网页文档分解成一个语法树,通过自动或半自动的方式形成一个相应的正则表达式(regular expression)形式的抽取规则.将数据从文档中提取出来的过程化为对语法树的操作来实现信息抽取。采用该类技术的典型系统目前有w4F、XWRAP和RoadRunner等。
5.基于web查询的信息抽取
互联网本来就是一个巨大的数据库,基于Web查询的信息抽取就是利用数据库技术在对互联网的网上数据进行管理和查询,将Web信息抽取转化成运用标准的Web查询语言对Web页面文档进行查询,具有很强的通用性。采用这种技术的系统有:Web—OQL以及自主开发的原型系统PQAgent。
Web信息抽取技术的内容
因特网提供了一个巨大的信息源。这种信息源往往是半结构化的,并且中间夹杂着结构化和自由文本。网上的信息还是动态的,包含超链接,都以不同的形式出现。
1.Web信息抽取的内容一般可以分为几个方面:
命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。
信息抽取的方法主要可以分为以下两类:一类是基于层次结构的信息抽取归纳方法,另一类是基于概念模型的多记录信息抽取方。
Web信息抽取工作主要包装器(Wrapper)来完成?。包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络中Web页面的信息数据抽取出来,转换为用特定的格式描述的信息。一个包装器一般针对某一种数据源中的一类页面。包装器运用规则执行程序对实际要抽取的数据源进行抽取。
2.抽取过程一般包括以下几个步骤 :
(1)将Web网页进行预处理。预处理的目的是将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备。
(2)用一组信息模式描述所需要抽取的信息。通常可以针对某一领域的信息特征预定义好一系列的信息模式,存放在模式库中供用户选用。
(3)对文本进行合理的词法、句法及语义分析,通常包括识别特定的名词短语和动词短语。
(4)使用模式匹配方法识别指定的信息模式的各个部分。
(5)进行上下文分析和推理,确定信息的最终形式。
(6)将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
Web信息抽取面临的挑战
(1)目前各类信息抽取技术中生成抽取规则的依据主要有三类:页面结构信息(HTML语法)、页面的内容和自然语言语义、语法信息。基于结构方式过分依赖网页的结构、可扩展性弱,基于内容方式又需要复杂的语言知识和自然语言处理技术。因此,应继续研究如何将基于结构方式和基于文本方式有效的结合起来克服各自的缺点。
(2)机器学习能提高获取规则的自动化程度,但通常需要大量的样本页面,而且需要经过较长时间的学习,信息抽取才能获得较好的查准率。需要研究如何简化机器学习的过程,在较短时间内准确获得需要的信息。
(3)Web上的信息内容和网页结构处于不断地更新和变化中,因此,时刻注意如何感知这种更新和变化,进而修改已有规则,保证信息抽取的正确性。
(4)无论是自然语言处理,还是包装器技术往往针对一个特定的信息源,一个特定主题和领域,每出现一个新的信息源就要重新构造一套抽取程序,造成系统的可扩展性差。因此,应研究如何最大程度地利用已有的资源(程序、数据等),通过最小程度地改造适应新的信息源,增强系统的可扩展性。