管理学百科|12Reads

非结构化信息

基本简介

非结构化信息如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动,是显性的表示,那么非结构化信息则隐性包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会。对于企业来说,企业内部,以及企业与供应商、客户、合作伙伴和员工数字化共享所有形式的数据资源,已越来越重要。

90%的信息和知识在“结构化”世界之外,IT应用中还存在着一个“非结构化”的世界。对大多数企业来说,ERP等业务系统所管理的结构化数据只占到企业全部信息和知识的10%左右,其他的90%都是数据库难以存取到的非结构化信息和知识。来自IDC的分析显示,虽然很多企业投资不菲建立了诸多业务支撑系统,但仍有72%的管理者认为知识没有在他们的组织得到重复利用,88%的人认为他们没有接触到企业最佳实践的机会。Gartner 也曾预言,对非结构化信息和知识的管理将会带来一个新IT应用潮流。

非结构化信息处理类似于上世纪70年代以前的结构化信息应用。割裂、无法进行数据互操作的应用是其主流。以人们最常用的文档软件来看,DOC文档是MS WORD的专用格式,WPS、永中、中文2000等OFFICE产品厂商则各有各的“自留地”。这种情况下,由于文档格式的束缚而使信息四分五裂,信息流无法通畅流转,信息处理更加困难,信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。

从非结构化到半结构化,从半结构化到结构化,从结构化到关联数据体系,从关联数据体系到数据挖掘,从数据挖掘到故事化呈现,从故事化呈现到决策导向。

互连网上出现的海量信息,大概分为结构化、半结构化和非结构化三种。结构化信息如电子商务信息,信息的性质和量值的出现的位置是固定的;半结构化的信息如专业网站上的细分频道,其标题和正文的语法相当规范,关键词的范围相当局限;非结构化的信息如BLOG和BBS,所有内容都是不可预知的。

构建产业

非结构化信息,提供个性化界面 中国的软件产业无法在结构化信息产业中获得主动地位,但历史并不会停留在这一个领域内。整个信息产业还有更大的市场有待开发:这就是非结构化信息应用。

通俗地说,结构化信息是一些可以用表格来描述的信息。除此之外还有大量的文档、流媒体信息等非结构化信息。但事实上,现实社会中,非结构化信息占据着80%以上的份额。这部分信息目前仍处于低效率的处理阶段,它给世界信息产业发展留下了空间,也给中国软件产业的跨越式发展带来了契机。

非结构化信息处理仍处于类似于上世纪70年代以前的结构化信息应用。割裂地、无法进行数据互操作的应用是它的主流。以人们最常用的文档软件来看,DOC文档是MS WORD的专用格式,WPS、永中、中文2000等OFFICE产品厂商则各有各的“自留地”。这种情况下,由于文档格式的束缚而使信息四分五裂,信息流无法通畅流转,信息处理更加困难。可以想象,有多少信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。

基于诸如此类的问题和现状,文档库技术的成展成为信息产业下一步发展不可避免的潮流。文档库产业也将成为一个比数据库产业更加重要的核心产业,关系到信息技术的发展进程。文档库技术应用意味着文档信息可以像结构化信息应用操作一样,文档信息的构建只要符合一个特定的数学模型,并设计一种可以对所有符合这种数学模型的文档进行各种操作的标准,文档应用软件就可以对所有此类文档进行相应的操作——就像一个ERP软件通过SQL操作关系型数据库时可以不必去考虑你底层用的是DB2还是ORACLE一样。

一个令人振奋的消息是,北京书生公司近日宣布推出了其SEP文档库技术,并已经形成可以实际应用的文档模型描述和相应的操作标准——UOML(Unstructured Operation Markup Language,非结构化操作标记语言)。这意味着,中国的企业有可能成为非结构化信息产业发展中核心技术的持有者和标准的制订者。

可以想象,占整个信息领域20%的结构化信息产业发展带来了超过千亿美元量级的产业,那么,占整个信息领域80%的非结构化信息产业一旦走上正轨,它将带来怎样的市场机会。这是很多人不敢想象的数字!

按照书生董事长王东临教授的介绍,由书生公司发起的UOML联盟已经启动,TRS、中文2000、汉王、中科院软件所、中标、中科启信、星火燎原等国内的 IT企业已加入其中,理光、Fatwire、Autonomy等单位也均有意向加入联盟,正在洽谈过程中。作为计划推进的一部分,加入UOML联盟的企业将首先实现相关操作的互操作问题。如10家联盟企业有各自的文档处理软件,以往这10种软件所保存的文档无法被其他软件操作,而加入联盟后的这10种软件可以操作其他任何一个软件生成的文档。由于文档库及UOML的应用,这些软件完成这种改造只需要一两个小时到一个星期的开发工作(视操作功能而定)。“比如其中有一家加入联盟的企业只是想让他的软件可以打开符合UOML标准的文档,那他只需要花一天去修改他的软件。”

这既是文档库技术给文档信息处理带来的巨大优势,也是推动非结构化信息产业发展的关键。

发展契机

进入二十一世纪,面对网络时代信息的爆炸式增长,海量非结构化信息的产生速度和传播速度已经远远超过了人们的处理能力,中文信息处理作为一项基础性、普适特性的信息技术,面临着挑战和再次发展的机遇,它的开发利用关系到中国今后信息产业乃至社会经济的发展和国家安全,具有巨大的经济价值和社会价值。

20世纪80年代以来,伴随着计算机的应用和普及,中文信息处理技术获得了较快的发展,诞生了方正激光照排、汉王手写输入、科大讯飞语音合成、TRS中文检索等一大批带有中文特色的高水平实用化的成果。进入二十一世纪,面对网络时代信息的爆炸式增长,海量非结构化信息的产生速度和传播速度已经远远超过了人们的处理能力,中文信息处理作为一项基础性、普适特性的信息技术,面临着挑战和再次发展的机遇,它的开发利用关系到中国今后信息产业乃至社会经济的发展和国家安全,具有巨大的经济价值和社会价值。

第二次契机将以“海量非结构化信息的自动化、智能化处理”为特征

互联网的迅猛发展,使搜索引擎正在向精准化、智能化、专业化方向发展,中文信息处理在垂直搜索和企业搜索领域获得了更大的用武之地;WEB2.0相关论坛、博客等的发展,也使网络舆论监测、褒贬分析等新课题出现;此外,无线通讯的发展为中文语音技术的应用提供了条件,以上种种表明,中文信息处理的应用深度和广度正在增加,呈现海量、自动化和智能化的特征,并逐渐融合包括音频、视频在内的多媒体技术特性。

创新是企业的灵魂,但过度依赖高校和科研院所的技术创新成果,而与市场化导向不相协调的话,最终也只会失败。所以创新研究不一定要等到完全成熟才开始产业化,反而需要及时进行市场探索来明晰改进方向和获得真实数据。对于中文信息处理产品来说,需要进行应用模式和服务模式的创新,特别是对于目前不完全成熟的先进中文信息处理技术,可以通过人机交互、限定领域、持续改进及服务化模式取得实用甚至超出期望的应用效果。

应用热点

非结构化信息应用1) 门户。门户应用的核心在于展现和集成。企业内部所拥有的信息系统的数量在增多,导致用户需要登录和浏览多个系统,会浪费时间,亦会耽误工作事项的及时处理。门户可以将多个系统的应用点集中在一个界面上。所以,集成是门户的应用重点。门户的第二个应用重点是:怎么能够高效、快捷、多样、美观地对内容进行展现,减少程序设计量和改版工作量。

2) 文档管理。文档的价值,重在重用。无论是记载了既往的经验、诀窍、心得、数据的工作文档,还是承载了规范、方法、工具的工作模版,如果能够供后来者使用,都能带来效益和效率的提高。文档管理亦是知识管理的基础所在。它看似简单,但如果以高水准的要求看待文档管理,并不是容易做的水准高、做的持久。

3) 协同。要点在知识与业务过程结合。无论是办公自动化系统中的文档,或是营销系统中的文档管理,还是产品数据管理中的文档管理,都是将文档与业务的运作结合起来,在具体业务的经营管理中,同步进行知识管理。

4) 社区。重在隐性知识向显性知识的转化。随着Web 2.0应用的普及化,博客、论坛、问题库、圈子、人脉网络等在大型企业内部的应用,亦逐步增多。由此,企业的社区不仅仅是论坛这一个应用。社区,促进了隐性知识向显性知识的转化。

5) E-learning系统。也是企业知识管理的应用重点之一,使得受制于讲师、空间、时间的面授培训,变成用户来点播使用的基于网络的培训。对于知识性的培训来说,这不仅有品质的保障,而且大大降低了成本。

上述这些不同的应用,外加企业内部建设的业务类、管理类系统,带来了信息量的膨胀,异构的数据。用户如何从这些系统中获取所需的信息,所费的时间越来越多。

该词条对我有帮助 (0)
成就高成效,实现管理能力快速提升,12Reads系列教材限时特惠! 立即购买 PURCHASE NOW