知识组织概述
知识组织一词,最早于1929年由英国著名图书馆学家、分类法专家、《书目分类法》(BC)的编制者布利斯(H.E.Bliss,1870—1955)提出。布利斯于1929年就出版了《知识组织和科学系统》、《图书馆的知识组织》两部著作,从文献分类角度阐述了组织知识的思想。从1974年起,《国际分类法》(IC)开始刊登有关知识组织文献的最新书目,涉及情报科学(包括档案学、图书馆学、一般文献工作、数据与博物馆文献工作)、计算机科学/信息学(包括程序设计、联机技术、人工智能、专家系统)、语言学与术语学、系统研究等广泛的学科领域。1989年,在德国法兰克福成立了国际性学术研究机构国际知识组织学会(ISKO),主要从事分类法的研究。1993年,IC更名为知识组织(KO),由ISKO主办,知识组织的概念自此在图书情报界传播开来。
ISKO自成立后,开展了一系列活动。1990年8月在德国的达姆施塔特举行了第一届国际ISKO大会,会议主题是“知识组织工具与人类交往”。第二届于t992年8月在印度的马德拉斯举行,主题为“知识组织与认知范式”。第三届于1994年在丹麦的哥本哈根举行,主题为“知识组织与质量控制”。第四届于1996年7月在美国的华盛顿举行,主题为“知识组织与变革”。
目前,对知识组织尚未有统一的认识,主要:有以下几种观点。①知识组织,是指对事物的本质及事物间的关系进行揭示的有序结构,即知识的序化。②知识组织是指对知识客体所进行的诸如整理、加工、揭示、控制等一系列组织化过程及其方法。③知识组织是对知识进行整序和提供,既处理大量的现有知识,又能相对降低存储知识的物理载体的盲目增长以免知识过于分散化。所以提供文献、评价科学文献和系统表述以生成新的便于利用和获取的有序化知识单元的处理系统即是知识组织。
知识组织的研究范围
具体来说,知识组织的研究范围主要有以下几个方面。
(1)知识组织的理论基础研究有发展历史、指导思想、基本原理、研究对象。
(2)知识组织处理工具、手段、技术的编制原理和使用说明。
(3)知识组织的具体方式、方法研究。既包括一般方法的研究,也包括对传统知识组织方法的改造研究,尤其是加强隐性知识的组织方法研究,如知识表示方法、知识重组方法、知识聚类方法、知识存检方法、知识布局方法、知识编辑方法、知识评价方法、知识监控方法等。
(4)知识组织的人工智能系统研究,知识库的建立、获取、更新与维护。知识库的整序方法包括顺序、索引、散列、树型等结构及数据字典的使用,层次结构的规则库,专家系统的知识组织方式方法等。
(5)元数据研究。为了能够对网上知识信息进行组织和控制,必须加强元数据研究,这将有利于形成自动化、高质量的网络搜索引擎,有利于网上信息的存取和检索。
(6)知识组织的语言学研究。包括语法学研究、语义学研究和语用学研究,重点是研究自然语言标引与检索问题,目的是为了提高检索语言中标引语言与用户需求表达语言之间的一致性,从而提高检索效率。
知识组织方式的分类
知识组织的方式主要有两种类型,以知识单元为基础的知识组织方式和以知识关联为基础的知识组织方式。
(1)以知识单元为基础的知识组织方式。知识组织是以知识单元(知识因子)为加工单位的,知识单元是经过专家精心评价、筛选、提取和测试之后获得的浓缩的知识。以知识单元为基础进行知识组织就是将知识单元或知识单元集合中的知识因子抽出,对其进行形式上的组织。由于只是对知识因子进行组织,而并未改变因子间的联系,所以在此过程中没有产生新的知识。从人类创造过程利用知识的特点出发来组织知识,建立知识系统,这方面的研究还很不成熟,有代表性的研究成果有英国学者B.C.布鲁克斯提出的“认知地图”(也称“知识地图”)和印度学者S.K.塞恩提出的“思想(情报)基因进化图谱”。知识地图中的每个结点即为一个知识单元,处于创造它们的逻辑位置上,通过引证相关与其他结点联结,从而形成一个有机整体展示知识利用和生产的动态过程。布鲁克斯认为当此知识地图逐渐扩大并趋于稳定时,便可以作为数据库实现纯信息(或知识)检索。塞恩则认为可以从文献中先找出“思想基因”,然后按自然进化方式聚类,形成“思想基因串”,从而编制出新型的概念索引,供人们利用。所谓思想基因,实际上就是知识生产创造过程中起着关键作用的思想。这些思想同样可以表示为一个简单陈述,而陈述则可以分解为有限数量的概念。这些概念在人类创造过程中的有序重组就表现为各种定理、法则、定律和公式。尽管两位学者研究的角度不同,但实质基本上是一致的,都希望找到知识生产过程的关键数据(知识单元),然后用图来标识其联系与结构,实现知识的有序化组织。这样的系统无疑是高效率的,但其可行性却值得推敲。这是因为:一方面,知识生产是动态的,积累是无限的;
另一方面,知识组织即使在很狭小的专业领域中,都表现为复杂的、多维的立体结构,二维的地图或图谱难以表现这种多维立体结构图景。事实上,要在平面上绘制出知识相互联系、相互影响的结构图也绝非易事,要用这些图来实现数据检索就更为困难了。由此,有的专家提出了“知识空问”概念,把概念表达成类似多维空间中向量的对象。当重新确定某一领域时,对该知识领域结构的重新安排可在多维知识空间中进行,把相关的表示向量通过一次转移与一个新的概念向量集合联系起来。一个人的知识状态也可在多维空间用状态向量来表示,状态向量带有分量,分量是关于被个人理解的基本概念。由于这个多维知识空间的基础概念允许某个人的状态向量、某一领域中情报项的表示向量(正如某一检索系统表示的那样),以及作为代表某一知识领域的知识空间中对象的实际概念向量之间的不完全匹配,所以用户和检索系统之间的交互将会增加。
(2)以知识关联为基础的知识组织方式。以知识关联为基础的知识组织是在相关领域中提取大量知识因子,并对其进行分析与综合,形成新的知识关联,从而产生更高层次的综合的知识产品。由于改变了知识因子间的原有联系,所以其结果可以提供新知识,也可以提供关于原知识的评价性或解释性知识。这种组织不只是知识单元的增加,更为明显的是知识在更高层次上的网络化、综合化,是内容的提纯和浓缩。它在众多公共知识中提取大量的结点,并赋予多个结点相应的联系,故对知识的组织更加全面、概括,形成了某一领域规模较大的知识多维网状结构。以此方式进行的知识组织以专家智能系统为代表。专家智能系统是人工智能走向实用阶段的一个最新研究领域,将人工智能用于知识的组织,便可建立专家智能系统。
知识组织的具体方法
知识组织的具体方法表现在如下方面。
(1)知识表示。所谓知识表示,是指把知识客体中的知识因子和知识关联表示出来,以便人们识别和理解知识。知识表示是知识组织的基础与前提,因为任何知识组织方法都要建立在知识表示的基础上。知识表示有主观知识的表示和客观知识的表示之分。
主观知识存储于人脑中,对它的表示表现为复杂的人脑神经生理与心理过程。目前的科学发展尚未完全探明人脑主观知识表示的内在机制。但是,在人工智能的专家系统研究领域,对人脑的知识表示机制进行模拟研究,取得了可喜成果。专家系统的核心是知识库系统,知识库中的知识存储方式及其推理输出规则,即为专家系统的知识表示方法。专家系统对专家知识的表示主要采取以下四种方式。
①逻辑(Logical)表示法。这种方法运用命题演算、谓词演算等逻辑手段来描述一些事实的性质、状况、关系等知识。它利用命题逻辑中的联结词符号建立演绎逻辑系统,可进行事实推理、定理证明等运算。
②产生式规则(Production Rules)表示法。这是一种前因后果式的知识表示模型,它由两部分构成,前一部分称为条件,用来表示状况、前提、原因等。后一部分称为结果,用来表示结论、后果等。其规则是:“IF(前件)THEN(后果)”,其意义是,如果(IF)前件满足,则(THEN)系统执行动作或得出结论。在一个专家系统中,专家知识、用户知识和背景知识,一般用产生式规则表示。如在文献检索专家系统中,用“IF…THEN…”规则能很方便地表达诸如标引规则、聚类规则、检索反馈策略等专家经验和思想。
③语义网络(Semantic Network)表示法。知识的语义网络表现为某一领域知识概念之间关系的网式图。它由节点和弧构成,节点表示知识的基本概念(知识因子),弧表示节点间的联系(知识关联)。语义网络表示法能够把知识因子和知识关联同时生成和表示,并以图的形式直观地显示出来。这种表示方法符合人类联想记忆的思维模式,因此在专家系统建设中得到广泛应用。在文献标引实践中,用语义网络来表示词表知识是一件比较容易的事情。
④框架(Frame)表示法。它的基本思想是根据人们以往的经验和背景知识来推理当前事物的相关知识。一个框架由多个槽(Slot)组成,每个槽又由一个或多个侧面(Facet)描述,若干个槽共同描述框架所代表的事物的属性及其各方面表现。框架表示法能够深入全面地揭示事物的内部属性,适用于知识的深层表达。
客观知识存在于各种类型的文献之中,具有确定的知识因子和知识关联结构。客观知识表示的任务就是把文献中的知识因子和知识关联用一定方式表示出来即可。对文献知识的表示,目前普遍采用分类标引法和主题标引法。这两种方法都属于揭示文献主题内容的方法,两者的基本原理相同:先编制标引用词典或称标引语言,然后把文献知识特征(形式特征与内容特征)与词典中的标引词汇之间进行相符性比较,最后把相符的词汇用其代号(分类号或主题词)表示出来。这个代号称为文献标识符。但两者的知识组织体例不同。分类标引法是语法组织和语义组织的综合,基本上属于族性组织体例。主题标引法是以语法组织为主、语义组织为辅的综合组织,基本上属于特性组织体例,其中词族索引和范畴索引由于展现了主题词之间的等级关系和学科关系,因而基本属于语义组织体例,而附表和语种对照索引则属于语法组织体例。
(2)知识重组。知识重组是对相关知识客体中的知识因子和知识关联进行结构上的重新组合,形成另一种形式的知识产品的过程。知识重组的目的是通过对知识客体结构的重新组合,为用户克服因知识分散而造成的检索困难提供索引指南,为人们提供经过加工整序后的精炼性知识情报,为用户便于理解和吸收知识,提供评价性或解释性知识。它又包括知识因子的重组和知识关联的重组。
知识因子的重组是指将知识客体中的知识因子抽出,并对其进行形式上的归纳、选择、整理或排列,从而形成知识客体的检索指南系统的过程。这一重组过程实际上是对知识因子在结构上的整序或浓缩的过程。在这个过程中,知识因子间的关联并未改变,没有产生新知识。在文献情报工作中往往利用知识因子的重组手段,形成文献知识的索引系统,例如,主题索引系统和分类索引系统的形成。它们的产品形式就是各种类型的二次文献,包括目录、索引、文摘、题录、书目之书目、文献指南等。
知识关联的重组是指在相关知识领域中提取大量知识因子,并对其进行分析与综合,形成新的知识关联,从而生产出更高层次上的综合的知识产品的过程。由于改变了知识因子间的原有联系,所以其结果可以提供新知识,也可以提供关于原知识的评价性或解释性知识。它所形成的产品主要是各类三次文献,如综述、述评、词典、手册、年鉴、类书、百科全书、专题讲座等。无论是知识因子的重组还是知识关联的重组,都要遵循客观性原则,即都不能改变原知识客体的语义内容。由此可以看出,知识重组基本上属于语法组织的范畴。
(3)知识聚类。它也可称为知识分类组织法。聚类和分类是一个过程的两个方面,分类的结果产生了聚类,聚类的结果产生了分类。知识聚类组织法,是指将知识按一定的聚类标准分门别类地加以类集和序化的过程。它的基本原理是“事以类聚”,即根据事物的不同属性,将属性相同或相近的事物集中在一起,将属性不同的事物区别开来。
以学科聚类和以主题概念聚类是古今中外各种文献分类法普遍采用的知识聚类方法,它们分别以学科分野和知识客体的主题概念作为区分知识集合的标准。
以时空聚类知识具有时空结构。知识的时空聚类就是根据知识产生的时间和空间属性为标准来类集知识。文献知识的分类组织中所采用的时代复分和地区复分,就体现了以时空聚类知识的原则。在知识创新研究中,如果正确使用知识的时空聚类方法,将会产生显著效果,甚至可能取得意想不到的创造性成果,这是因为知识的时空聚类不仅仅是一种归类,更重要的是一种整合。在知识创新研究中,可采用如下四种知识时空聚类方法。①将时空相近的知识整合在一起。不仅可以实现知识的归类,可以了解某一学科的发展现状,还可以进行某一学科研究成果的横向比较研究。②将时间上相近、空间跨度较大的知识整合在一起。这可以实现某阶段不同知识成果间的交叉渗透,有利于新知识的产生。知识空间的跨度越大,其知识单元的差异就越大,各知识单元间的优势互补就越明显,其价值也就越大。③将时间跨度较大、空间上相近的知识整合在一起。这可以看出某一学科、某一领域的发展脉络,预测其发展趋势,也可以找出某一事物发展的主导因素和其中的关键问题。④将时间跨度和空间跨度都较大的知识整合在一起。这可以极大地发挥各知识单元间的“杂交”优势,既可以使一些老的学科焕发活力,又促进新学科的产生。许多新兴的交叉学科的诞生就是通过这一途径实现的。
(4)知识存检。知识存检是由“存储”和“检索”两方面构成的系统或过程。这里所说的检索,是指检索系统的建立过程,而不是用户的实际检索过程,因为用户的实际检索过程处于知识的查找和利用环节,而不处于知识组织的环节。知识因能够存储而得以积累和延传,因能够检索而得以吸收利用。建立科学有序的知识存检系统是知识组织活动的重要任务。知识存检可分为脑内存检和脑外存检。知识的脑内存检表现为复杂的大脑神经生理与心理过程。目前认知心理学对大脑知识存检机制的研究可谓富有成果。在认知心理学研究中,知识的存检被当做记忆过程来对待。一个完整的知识记忆过程包括知识的存储、编码和提取(回忆)三个环节。
知识的脑内存检(记忆)过程,实际上就是主观知识的形成过程。,尽管人们目前还不能完全探知其内在机制,但它是一切脑外知识存检方法均应遵循的基本依据,因为一切脑外知识存检方法的根本目的就在于为个体的知识记忆服务。
知识的脑外存检又分个体的脑外存检和公共的脑外存检。前者表现为个体的随机行为过程,难以把握和描述其普遍规律,因此本文只论述知识的脑外公共存检。知识的公共存检属于客观知识的存检范畴,亦即属于文献存检范畴。社会的文献情报部门就是从事文献的公共存检工作的专门机构。
(5)知识编辑。它是指对知识客体进行的收集、整理、加工制作等编辑活动。知识编辑的过程一般表现为先“辑”后“编”,即先收集相关资料,然后加工制作成特定形式的知识产品。从知识编辑的功能上看,它是知识产品能够汇入到知识流海洋之中的一道道关闸,在这里,知识编辑起到了“编辑筛”的作用,即符合编辑标准(包括内容标准和形式标准)的知识产品得到生产和流通,而不符合编辑标准的知识产品则被筛掉。某一知识产品在未经编辑前被称为初级产品(或称编前产品),经过编辑)11]工后的产品则被称为成样产品(或称编后74『第3章知识管理方法与工具产品。在这里不能称为终级产品,因为该产品可能以后继续被编辑)。某一知识产品,经过“编辑筛”的筛选,成为成样产品,这就是所有编辑活动的微观过程。从宏观上看,知识编辑的筛选功能可以实现知识生产的“优生”,从而保证知识生态的优化组合。可见,知识编辑是关系到知识生态环境优劣的知识组织方法。因特网上的知识信息之所以庞杂混乱,主要是由于许多知识信息未经组织编辑而直接上网所导致。
知识编辑和知识重组具有相似性,两者之问有时相互包容、相互交叉,例如,大部分二、三次文献的形成过程,就是通过知识编辑活动来完成的。正因如此,有些知识组织活动既可以说成是知识重组,也可以说成是知识编辑。尽管如此,知识编辑和知识重组之间还是有比较明显的区别。知识编辑活动往往是由比较固定的编辑组织,且由相对职业化的编辑人员来完成。而在知识重组活动中一般不需设有固定的编辑组织,即使有时设有编辑组织,也是临时性的,有些知识编辑活动就不宜或不能说成是知识重组活动,如丛书编辑、译文编辑等。
(6)知识布局。知识布局是一种宏观的知识组织方式,它是指对社会上的知识资源进行调配和布局,以实现知识资源的合理配置,满足社会、经济、文化发展的需要。根据知识载体的不同,知识布局可分为主观知识的布局和客观知识的布局。
主观知识的布局主要是通过对主观知识的拥有者——人的配置活动来实现,主要有自然性布局和政策性布局两种形式。科教文卫部门和政府机关聚集大量知识分子(即拥有大量主观知识资源),这是社会发展需要所造成的自然性布局。发达国家和发达地区聚集大量优秀知识分子,也是一种自然性布局。而向落后部门或落后地区支援、调配所需人才,则属于政策性布局。
客观知识的布局基本上属于文献资源布局的范畴。所谓文献资源布局,就是从宏观上制定目标和规划,进行协调和分工,以指导文献情报部门的文献收集工作,突出各自优势,形成比较完备的收藏,并将其作为社会的知识资源,共享共用,从而建立文献资源保障体系。文献资源的布局分为自然性布局和政策性布局。社会上的文献情报部门收集有大量文献资源,发达国家和地区拥有世界上大部分文献资源,这是一种自然性布局状况。而诸如“知识工程”、“捐书工程”、“送书下乡”、“全国图书协调方案”等,就属于政策性布局措施。
(7)知识监控。这里所说的知识监控,主要是指政策性监控,它是指政策主体按照自己的意愿和利益,制定相关的政策法规,对知识主体(包括生产主体、管理主体和利用主体)的行为活动加以限定和监督。知识监控是一种知识的外在组织方法,其目的是为了完善知识系统的内在秩序。知识监控可分三种类型。
①思想监控。这是指政策主体对知识主体及其知识产品的政治倾向性所实施的限定与监督。其主要对象是人文社会科学领域。对知识主体及其知识产品实施思想监控,是阶级社会的一个特点,只要阶级存在,这种监控就不可避免,不管其历史后果如何。
②法律监控。这是指法律主体为了保证其意志与利益的实现,为了保障知识主体的合法权益,为了保证社会的知识管理活动正常秩序,而对知识主体和知识管理活动加以法律限定与监督。知识的法律监控主要表现为相关法律法规,如知识产权法、专利法、图书馆法、档案法、信息保密法等的制定与实施。知识的法律监控具有强制性与统一性特点。
③标准监控。这是为了保证知识组织活动的标准化和规范化而实施的一种监控。它主要表现为一系列相关标准、规程的制定与实施过程,如文献著录标准、文献分类与标引规则、数据库数据格式标准、参考文献著录规则、期刊编辑规则、文献情报工作评估标准、索引款目格式及其编排规则、索引语言词典等的制定与实施。知识的标准监控具有统一性、规范性和操作性特点。