摘要 在信息服务向知识服务过渡中,知识元被认为是实现知识服务的实体单元。归纳已有知识元的研究方法,从情报学的视角探讨知识元的概念,提出知识元由导航信息和语义内容两部分组成、二者构成知识元的独立实体、单一的关键词不是知识元的观点。接着,从信息与知识变换的角度讨论文本知识元谱分析与提取的算法和实现。实验结果表明该方法具有可操作性和实践性。
关键词 知识元 语义链接 模型研究
分类号 TP391
1 引 言
知识的服务单位长期停留在文献这一级上,已经成为制约人类有效利用知识的瓶颈。情报学家徐如镜研究员提出,一旦实现知识的控制单位由文献深化到“知识元”,大量文献中所包含的“知识元”及相关信息间的链接,将产生极大的知识增值,大大推进人类对知识的利用,促进对新知识的创造,从而也将推动知识资源业的重大发展。情报学家马费成教授提出情报学取得突破的两个关键问题:①知识信息的表达和组织必须从物理层次的文献单元向认识层次的知识单元或情报单元转换;②知识信息的计量必须从语法层次向语义和语用层次发展。1986年,美国芝加哥大学Don R Swanson教授提出的“非相关文献的知识发现方法”,对40多年前科学家就在积极地探讨的科学知识分裂化现象,利用知识片段理论做出了说明,证明了事实上文献间隐含关联数量可能远多于显性的相互印证关联的数量,并且这种隐性关联的发现比信息本身的增长更有意义。Swanson的“基于文献的发现方法”证实了将文献中的具有隐含逻辑关系的知识片段组织起来可以发现新知识,为情报学的研究开创了新的研究方法。本文提出了知识元语义链接模型,对知识元的认知、模型、挖掘和语义链接的方法做了探索。期望得到更多的关注和研究,以推动这一方向的研究成果的开发和应用。
2 知识元的认知
知识元的研究活动可归纳为四个主要研究领域:情报学意义的知识元、科学计量意义的知识元、教材教学组织的知识元、产品设计的知识元。
2,1 情报学意义的知识元
20世纪70年代后期,除书目数据库外,数值数据库和全文数据库的数量不断增长,指南数据库开始出现。此时,美国情报学家弗拉基米尔?斯拉麦卡教授在华讲学时提出,知识的控制单位将从文献深化到文献中的数据、公式、事实、结论等最小的独立的“知识元”,当时他把这称为“数据元”。
20世纪80年代初,英国著名情报学家布鲁克斯(B.C.Brooks)提出绘制“认知地图”的任务。布鲁克斯认为,如果能利用关系索引就可以较为准确地表达概念之间的关系,那么就可能将文献网变为由知识单元直接联接的概念网,使知识体系从外部宏观结构改变为内部微观结构。
1993年z.Chen继Swanson提出建立基于分散于文献内部知识片断的逻辑关联的知识整合方法,改善非相关文献知识发现的效果。
近年来,国际上越来越多的研究者认识到万维网时代信息检索效率不高的原因主要在于信息组织的深度仅停留在文献层次,提出解决的根本方法是将信息标引深入到文献中的知识元层次,建立知识元(Knowl-edge Element)模型成为实现有效知识检索的重点问题。国内学者徐荣生认为知识单元是指知识本身不考虑物理形态自成系统、自成单元,自为一组的认识单体形态,是知识集合系统的相对独立构成单位。其中就有最基本的、不再分解的基本认识单元,如概念知识单元。
国内学者王子舟教授等对文献单元与知识单元做了深入研究,认为20世纪90年代末期,“知识单元”在图书情报学界的使用频率逐渐多了起来,因为许多图书馆学研究者已经意识到,图书馆如何从传统的文献组织转向文献信息(即客观知识)的组织,如何从文献单元服务深入到知识单元服务,已经是图书馆实践面临着的新的重大课题。国内学者文庭孝博士等对知识单元的概念进行了综述。
2,2科学计量意义的知识元
科学学的知识单元研究者,我国著名科学家赵红洲认为:“知识单元(或称知识本体)”是科学的细胞,也是科学大厦的“基本”砖块。科学学研究知识单元的目标是想实现如何评价学术论文的学术质量问题,也就是说,如何比较两个科学定律的难易程度问题。牛顿定律和气体定律哪一个付出的创造力更大些?由此,赵红洲先生把知识单元定义为“能够用数学公式表示的科学概念”。赵红洲等还提出了知识单元的智荷概念,认为智荷乃是知识单元最为基本的特质和属性,分为静荷和动荷两种类型,静荷是知识单元相互逻辑关系所决定的智荷,是基本知识单元的函数;动荷则是知识单元在历史的进化过程中积累的智荷,是时间的函数。一个知识单元的静荷Qi可用公式(1)表示:
2,3教材教学意义的知识单元
自20世纪90年代以来,IEEE-CS/ACM陆续推出了“计算教程1991”、“计算教程200X”等研究报告。其中最重要的成果之一就是把计算机科学的知识体划分为10个领域、55个知识单元。每一个知识单元则包含若干主题。知识体为计算机学科提供了一个统一的知识框架。知识单元具有更大的灵活性。用一组知识单元代替一组主干课来规范教学计划中的公共要求,有利于学校结合本身的情况,设计出既有自己特色、又不背离统一要求的课程体系。
2,4产品结构设计中的知识单元
文献[19]利用专家的知识文本作为领域本体,建立文本知识元的抽取实验。提出将知识分成4层:知识域(knowledge domain)、知识单元(knowledge unit)、知识元(knowledge element)、知识元的特征元(charac-teristic element)。特征元根据知识元可分成表示(rep-resentation)、规则(rules)、操作(operations)、导航(navi-gation)、上义词(super-ordinate)、关联(relevaney)和其他关系。在产品设计中把知识元分成两种:①描述性,包括信息报告、名词解释、数字值、问题描述、引言和结论;②过程性,过程、方法、定义、原理、经验等。
3知识元模型
3,1知识元概念模型
我们认为,从文献中抽取出的知识元不等同于关键词。情报学知识元的抽取目标是:先将文献中的知识元分割出来,然后建立一种独立于原文的可独立存放、检索和推理的知识实体单位。我们曾提出文本知识元的发现可通过计算向导信息与知识元间的语义关系来实现。图1给出了文本知识元与向导信息导航计算模型:
图1中,特征分析与提取:对论文标题进行分词,统计标题词在文摘中的响应度,根据响应度选择特征词,然后用特征词在正文中抽取句子。
向导信息:其后有语义内容的特征词。 语义内容:对象名称,对象起因,对象内容,对象过程,对象结论,对象引文等。
知识元:向导信息,语义内容。
抽取算法:一种抽取向导信息特征词句子的软件。
特征词的计算就是检查抽出的句子中是否具有描述知识元功能的语义内容。如果有,则把特征词分离为向导信息词,语义内容分离为知识元内容,以便建立向导信息与语义内容的导航链接,实现独立于文献单元的知识元自由集成检索系统。
定义1:
知识元:{名称,属性,操作,导航}
名称=为知识元研究的对象
属性=为知识元的特征
操作=为知识元解决问题的方法(能力)
导航=为知识元的逻辑联系
定义2:
新知识产生的是一种知识元的信息导航链接过程。
K(S)+N(K(E)+K(S))=K(S+△S) (3)
式中K(S)表示知识结构,K(E)表示知识元,Ⅳ表示信息导航链接。
公式(3)突出了知识元的独立性、信息导航的链接性和知识结构的完善性。强调知识结构是一个比较完整的认知结构,知识结构的构成主要是由信息对独立的知识元的导航而形成。知识元导航链接示意图见图2。
在知识元的研究中,如何认识知识元并从什么地方切入研究以及对知识元进行归类分析是进一步认识知识元的重要步骤。通过对知识元的归类分析,我们把得出的知识元类型分成两大类型:描述型(信息型,名词解释型,数值型,问题描述型,引证型);过程型(步骤型,方法型,定义型,原理型,经验型)等。由此我们把数字型知识元定义为描述型知识元模型。
定义3:
一个数值型知识元NKE由对象,领域,特性集,关系,值,状态6个属性组成。
由公式(7)可以看出原知识系统K(S)接受信息/激励后的结果,使知识谱上添加了信息,所贡献的知识谱。
我们研究了知识信息谱的提取,给出了知识元的提取实验步骤。利用上述方法,求最优概率分布的概率值p(y|x)中,将“提出”特征词看作x,故提出之后的内容即为作者给出的创新点知识元Y。文本知识元抽取的步骤如下:
第一步:文本格式转换(,PDF转成,TXT);
第二步:分离出由“提出”特征词引出的创新点内容(知识元集合);
第三步:分析知识元集合的组成结构(单个知识元);
第四步:抽取文本中每个知识元的相关句子;
第五步:分解句子成为语义三角形结构的知识元(另文给出);
第六步:聚类知识元成为知识元集。
4 文本知识元挖掘软件研究
我们开发的文本知识元挖掘软件分为5个步骤实现:
第一步:知识元自动抽取算法。网页格式转换,文本分词、词性标注、知识元自动抽取。
第二步:有效句分解与获取对象语义。通过句子的特征分析,我们用自己设计的抽取软件将有效句分解为两部分,即对象名和对象数值。以对象名中的动词为界,将对象名分解成主谓关系,从而达到了将一个有效句子分解成三元组(O,P,A)的目的,即实现了用软件自动获得一条由主谓宾语法关系组成的知识元。如图3所示:
第三步:去掉词性标记获得知识元。去掉词性标记,建立由时间、地区、领域、对象名称、对象属性、对象值等属性集成的知识元,并自动存入知识元库。最后可以对挖掘到的知识元进行汇总,存入到总表中,以便于以后的查阅和关联推理使用。知识元生成系统界面如图4所示:
第四步:知识元自动存储。软件可以对挖掘到的知识元进行模糊和精确查询,并将查询结果反馈到用户界面,还可以将挖掘的信息生成简要文本输出。知识元库结果举例如图5所示:
第五步:建立知识元语义网地图。利用protege工具将挖掘出的知识元用本体语言OWL(web OntologyLanguage)进行处理,实现了领域知识元集成的语义网地图,如图6所示:
5 小结与展望
本文对知识元的认识做了归结分析,强调情报学知识元挖掘的目的是建立知识元结构,独立于原始文献进行直接的知识服务。因此知识元的开发与应用是文献服务向知识服务过渡的一种转折点,知识元是知识分离和组合的基元,它由两部分组成,即向导信息词和语义内容组成的知识实体。因此知识元不是普通的关键词。知识元的挖掘是一种智能活动,是以科学家创造的知识成果为对象的一种提取和再组织的智力劳动过程。因而它的研究既具有极大的吸引力,又具有很大的困难,尤其是将研究的成果变为实际应用的产品,不可避免地必须经过商业化的过程。这意味着国家层面的认识和市场机遇的到来。