数字图书馆系统 数字图书馆知识组织系统热点分析

  [摘要]数字图书馆知识组织系统的构建有赖于本体的开发与完善,从解决数字图书馆知识组织系统语义丰富度视角,对当前学界对该领域热点问题的研究状况进行分析,包括:本体构建与复用,本体整合、语义分析与抽取、语义标注以及语义互联应用。
  [关键词]数字图书馆 知识组织系统 领域本体
  [分类号]G250.76
  
  1 引言
  
  数字图书馆(DL)是信息环境网络化、数字化、知识化的产物,是国家信息基础设施的核心。数字图书馆把知识作为工作对象,并且关注知识的应用环境和应用群体,因此,知识组织系统的构建在数字图书馆建设中始终发挥着核心的作用。
  从广义理解,数字图书馆知识组织应包括数字资源的知识组织系统的构建、语义自丰富、语义互联、互操作、术语服务等。
  
  近年来,在我国图书情报界,本体研究成为了数字图书馆知识组织系统构建的一个热点研究领域。目前为解决数字图书馆知识组织系统语义丰富度问题,本体构建与复用、本体整合、语义分析与抽取、语义标注以及语义互联应用成为学界研究的热点和建设的重点(见图1)。
  
  2 研究现状与热点
  
  2.1本体建模与复用研究
  本体建模方法的研究对于本体的应用有至关重要的作用。数字图书馆知识组织系统的构建有赖于本体的开发与完善,本体的开发和完善是一个反复叠加的过程,不会一蹴而就。目前国内外学者试图从本体建模方法和开源本体的复用两个方面进行突破。
  目前本体建模的研究已经进入实际应用阶段。许多研究领域都建立了自己标准的本体,但由于领域本体建设还没有成熟的方法论作为指导,目前提出的本体建模方法都是面向特定领域或针对具体的项目,而且都不是经权威标准化机构认证的方法,这就导致各种本体建模方法的出现。如骨架法、企业建模法、循环获取法和IDEF-5方法等。
  本体复用已成为重要的课题,越来越多的应用利用本体表示语义信息,因而如何支持本体复用变得愈加重要。本体复用主要有三种:①简单地把整个源本体导入目标本体Wppl,且仅用其中部分规则,而直接忽略其余规则;②仅“复制+粘贴”源本体规则的某子集到目标本体Wppl为导人规则的子集;③把源本体分解成不同的模块,根据相关标准,仅导入需要的模块。相比而言,第3种方法是最有发展前景的方法,目前的困难在于本体的模块化还不很成熟,只提供了本体类的理论和算法。
  W3C标准定义的OWL本体语言由一系列规则组成,包括类规则、属性规则和实例规则。在如下导入相似性标注的帮助下,OWL本体可以导入其他的OWL本体:
  Annotation(ireports)
  Annotation(imports)
  导入标注含有把两个源本体导入目标本体的规则。把本体概念加以扩充,可以实现从源本体的类、属性和实例的语义导入。本体复用需要评价已有本体与目标本体之间的关联性。共享和复用是本体的本质要求,也是领域本体建设中很重要的问题。
  
  2.2本体整合
  本体整合是本体的语义和解释范畴的问题。本体整合最初由SWAP(Semantic Web and Peer to peer)项目和SEKT(Semantically Enabled Knowledge Technolo―gies)提出,利用本体整合处理本体异质(ontology heterogeneity)。Paolo Bouquet等人给出了本体异质的详细分析,指出在分布式和开放式系统中本体异质是不可避免的,并根据本体异质产生的原因将其划分为4个层次:表示层、术语层、概念层和语义层。Paolo Bouquet等人还认为:表示层的异质可以通过翻译成统一的本体表示语言来解决;术语层的异质通过词汇映射来解决;概念层异质的解决需要通过对整个本体进行考虑,查找不一致,进行映射或合并;语义层的异质可能存在着表示层、术语层、概念层异质,还可能存在语义关系上异质,目前还没有很好的解决方法。
  本体映射是本体整合的一个关键环节,它通过一定的方法在已存在的不同本体间建立映射,以便在已存在的和新的领域之间进行交流时有通用的接口和共同的理解。在现实应用中,领域本体规模都很庞大,利用手工方式,进行本体概念比对完成本体映射时繁琐且易错,因此是不可行的。目前国内外研究者对自动化本体映射的方法和技术进行了深入研究,其主要特性如表1所示:
  从图1可知:①映射方法上:大多数的本体映射方法是采用一对一集成,而一对多或者多对多的方法比较少,基本没有多对多的本体集成工具出现;②自动化程度上:本体映射无法实现自动化的本体映射,多是半自动化的;③计算方法上:比较单一(除了OntoMap之外);④映射性能上:受到本体构建技术影响比较大。本体映射目前只能够解决术语层和概念层的异质,还无法涉及到语义层的异质,如何解决语义层的异质是当前研究需要重点考虑的问题。
  
  2.3语义分析与抽取
  数字图书馆知识组织系统的构建不仅是多种语义工具的互操作和集成,而且还应实现这些语义工具的机器可处理和机器可理解。
  国内外学者对自然语言理解展开了深入研究。国外的语言学家、计算机学家、心理学家和逻辑学家在语法、句法、词法、语义分析等方面提出了一系列理论及方法。这些理论和方法大致可归为三大类:基于语法的分析法、基于语法与语义相结合的分析法和基于语义的分析法。国内在理论研究方面尚不深入,但在汉语电子词典、机器翻译、汉语机读语料库、汉语人机对话、汉语情报检索等应用研究领域也有重大突破。
  自然语言理解有赖于自然语言处理,自然语言处理的基础是分词技术。因为:一方面,词是自然语言的基本单元;另一方面,计算机以机器词典的形式存储大部分自然语言知识,机器词典中收录了词条的词法、句法和语义知识,并在词类知识基础上编制句法规则。因此,自然语言处理系统必须对“词”进行识别和处理,才能理解和使用知识。
  另外,由于汉语与其他语种不同,更需要自动分词,国内的许多机构和学者对此展开了研究。梁南元定义了两种基本的切分歧义类型,而黄昌宁、刘宾、殷建平、文庭孝、尹锋、丁丰、刘开瑛等学者都进行了分词方法的研究和自动分词系统的研究,可以归纳为基于词典的分词方法、基于统计的分词方法、基于理解的分词方法和基于人工智能的分词方法。这些分词方法各有其特点,分别代表着不同的发展方向。其中,基于人工智能的分词方法是目前理论上最为理想的分词方法,但是该类分词方法的研究还处于初级阶段,并且由于汉语自然语言复杂灵活,知识表示困难,所以对于这类分词技术还需要进行更深入和全面的研究。自动分词系统研究成果主要有清华大学SEG分词系统、复旦分词系统、北京大学计算机研究分词系 统和中国科学院ICTCLAS系统。另外,国内学者开始重视语义和知识表示,并有意识地区别于英语自然语言理解的研究模式,寻找适合汉语自身的方法。黄曾阳的概念层次网络(HNC,Hierar―chical Network of Concepts)理论和董振东的知网(How―Net)、东北大学和北京大学对WordNet的汉化等,都在努力探讨适用于自然语言处理的新方法。
  
  2.4语义标注
  语义标注(semantic annotation)又称本体标注,即利用本体中定义概念、术语以及语义关系显式地揭示和描述数据资源的语义。语义标注面临两大类任务:一是如何将当前不计其数的普通万维网页面转换为富含语义信息的语义页面,这方面的研究主要集中在语义标引工具和语义标引平台开发;二是如何发布语义页面,其核心就是分类标引,它要求信息发布者在发布网络信息时要尽量使用本体中定义的关系词汇,同时还要显式地表达出概念所归属的语义类别,这一任务也不可能依靠手工的方式完成。因此两大任务都转向本体标注流程和本体自动标注工具。研究者对本体标注工具和语义标引平台进行了深入研究,其中,语义标引平台为IE的实施、本体和知识的管理、APIs入口、存储(RDF仓库)及编辑本体和知识基础的用户接口提供了支持。现有的语义标引平台按照标引方法的使用类型,大体上分为三类:①基于模式的标引;②基于机器学习方面的标引;③基于两种方法融合的标引。目前语义标引平台技术并不成熟,还不能完全满足语义互联的需要,究其原因主要是:①目前大部分标引平台是手动和半自动化的;②学习能力不是很强,不能通过自身的不断学习以适应不同状态下的标引和检索的需要;③可扩展性不够强,不能完全无障碍地与用户进行交流,以完善自身的知识库;④平台需要统一各个用户之间的标引方式和提供的本体,以提高标引精度。
  
  2.5语义互联应用
  2.5.1知识可视化知识可视化(knowledge visualiza―tion)是在科学计算可视化、数据可视化、信息可视化基础上发展起来的新兴研究领域,于2004年由Eppler和Burkard率先提出。它是指应用视觉表征手段促进群体知识的传播与创新,包括所有可以用来建构和传达复杂知识的图解手段。现阶段,知识可视化的研究主要为两个方向:
  研究知识可视化的表现形式,包括知识可视化的基础理论、知识的可视化表现图的类型、适用范围和效果。如武汉大学信息管理专业学者对此做了一系列研究,出版了《信息可视化与知识检索》,从信息检索结果提供、多媒体信息可视化方面进行了综述性的研究。
  可视化的实现,包括知识可视化的形式化模型和算法以及该理论模型和算法的实现系统软件。比如对于思维导图(mind map)现阶段国外已经有Mind Map Manager、Free Mind Map等应用软件。这个方向国内研究的主力军是北京师范大学知识工程研究中心,该中心开发了中文概念图软件易思一认知助手(EasyThinking―Cognitive Assistant)软件,2007年1月7日已发布3.0版,将概念图、思维导图和一般图合而为一。
  从国外知识可视化实践进展来看,澳大利亚的纽卡斯尔大学和皇家墨尔本大学的Bilal Succar进行了信息可视化模型构建的研究,在研究中设计了可视化知识模型和研究中所涉及领域的本体。欧洲学者对本体的可视化进行研究,认为信息可视化为本体校准结果的评价提供了合适的方法。不同层次的细节和概论帮助用户导航并理解校准,用户对半结构化资源的评价涉及到学习活动。马来西亚普渡大学的学者设计了自动语义抽取系统(AME),可视化界面是该系统中的一部分,在设计可视化界面时他们发现用户可以通过对概念网络结果的可视化来将AME系统的利用扩展到最大化。用户可以搜索一个概念,并察看这个概念与其他概念之间的关系。这些关系可以通过“显示文本”功能被追溯到原始文件中的来源句子。
  2.5.2语义检索20世纪80年代国际信息检索大会SIGIR会议论文中就出现了对语义检索的讨论,但语义检索研究始终受到语义信息处理发展水平的制约。上世纪末以来,随着自然语言处理、人工智能的发展,尤其是语义网技术的兴起与发展,语义检索研究得以迅速发展。尽管到目前为止对语义检索在概念上仍没有统一的界定,但不同的研究却有着共同之处,就是基于对信息资源的语义处理实现效率更高的检索。目前语义检索有两种,即基于概念的语义检索和基于本体的语义检索。前者是根据概念词典和关系数据库构建概念空间实现语义检索,具有一定的语义处理能力和自然语言接口,但其概念库中不包含概念间关系的描述,因此无法处理有关概念的问题;而后者是基于本体构建概念空间,将本体融合到传统信息检索技术中,不仅可以继承概念信息检索的优点,还可以克服概念信息检索不能对概念关系进行处理的局限。
  2.5.3语义互操作数字图书馆知识组织系统互操作主要解决两个问题:多语言和异构。跨语言的互操作问题在美国和欧洲很受重视,美国数字图书馆先导研究计划(Digital Library Initiative)中有许多是着眼于解决语义问题的,例如伊利诺斯(Illinois)大学主持的项目中关于概念空间与分类地图的研究,伯克利(Berkeley)大学主持的项目中关于文字歧义消除的研究,卡内基?梅隆(Carnegie Mellon)大学主持的项目中对于语音识别的研究以及加州大学圣塔巴巴拉分校关于图像的分割与聚类的研究,主要集中于人工智能、统计规律识别技术等,都属于语义研究或语义互操作范畴。欧洲相关的研究项目有MACS、Merimee、Renardus等,甚至尝试自动建立中、英文词表之间的映射。我国也有一些关于双语数字图书馆知识组织系统互操作的研究,如《汉语主题词表》与《美国国会图书馆标题表》(LCSH)、本体之间的转换研究、《中国图书馆图书分类法》与杜威十进制分类法(DDC)类目设置的比较、与DDC对照系统的研制等。
  异构数字图书馆系统间的互操作的目标是实现不同系统间知识交换、共享与重用。这方面需要解决的问题是:①不同本体之间的互操作。本体虽然为DL的语义互操作提供了解决方案,但其本身也存在着异构性,因此不同本体之间的互操作也是DL互操作的一个重要方面。②跨语言、跨文化的互操作。未来的DL将是联邦数字图书馆。建立全球范围的DL联邦,需要解决跨语言、跨文化的互操作问题,其中包括比较复杂的语言翻译问题。③DL的发现与安全性。实现全球范围内DL的互操作,需要解决DL的命名和动态发现。随着DL逐步走向实用化,必须考虑DL互操作的安全问题。
  要实现这一目标,必须在描述、检索、对象交换与检索协议等方面取得突破性的进展。需要解决的问题包括元数据的定义和通过文本或多媒体数字对象抽取元数据,数字对象的特征描述计算,具有不同语义的异构资源库的整合,信息的聚类和自动分类,自动排序、分级算法以及信息质量、类型或其他属性的自动评测等。
  
  3 结语
  
  随着本体在数字图书馆知识组织系统中的深入应用,如何解决本体建模与复用、本体整合、本体进化和语义互操作问题已经迫在眉睫。
  理论方面,构建面向数字资源组织的领域本体以取代传统的知识组织工具,是当前图书情报学界研究的重点,看重的是本体所蕴含的丰富的语义关系和强大的推理功能,重视知识与信息的转化、知识元的抽取与标引、基于知识元链接的知识网络的形成与应用、知识结构的学科分类与完整性以及知识仓库和知识元数据库的建设与应用。实践方面,对于数字图书馆知识组织工具的本体化改造成为领域的前沿和热点,并已取得了一批重要成果:①使用本体对传统知识组织工具进行表示;②使用实例数据丰富现有的知识组织工具;③在已有知识组织工具的基础上丰富其语义关系和结构,进而建立本体。
  诚然,关于本体构建等问题仍存在客观上的困难和问题。研究中发现:知识结构、知识内容的复杂性和动态性、语义关系的丰富性、空间秩序的多维性是制约数字图书馆知识组织系统有效结构化和应用的瓶颈,尤其是富有语义信息的领域本体的匮乏是数字图书馆建设中的瓶径,而领域本体构建和复用效率不高、通用性不强限制了数字图书馆知识组织和知识服务深度与广度。我们相信,随着数字图书馆理论研究的深入与实践的发展,对知识组织系统的研究也在不断丰富、发展和完善之中。