[摘要]本体映射系统分为通用映射系统和领域映射系统两大类型,从模型和流程视角综述2009年RiMOM、As―MOV、DSSim、OntoMap、OntSE五种本体映射系统模型,认为本体映射研究在关联数据等新兴前沿领域的应用有待进一步深化。
[关键词]本体映射系统 映射模型 OAEI关联数据
[分类号]G350
1 引言
本体映射是实现本体互操作的关键。本体映射系统是建立在本体映射方法基础上的,发现本体映射的方法一般分为四种:①术语方法:借助自然语言处理技术,比较映射对象之间的相似度,以发现异构本体间的联系;②结构方法:分析异构本体之间结构上的相似,寻找可能的映射规则;③实例方法:借助本体中的实例,利用机器学习等技术来寻找本体间的映射;④综合方法:在一个映射系统中同时采用多种寻找本体映射的方法,弥补不同方法的不足。
现有的本体映射系统可分为两种类型:①通用系统(Generic Systems)。这类系统一般采用通用方法,如不确定性推理、机器学习、相似度聚合等构建系统平台,一般可满足多个不同领域的映射需求,在语义网环境下潜在支持各种应用。②领域系统(Domain SpecificSystems)。这类系统针对特定领域问题(例如医疗、农业等)的本体映射需求,使用具体的领域规则,启发训练或背景知识,在映射方案中具有较强的针对性。本文主要综述这两类系统模型近年来的代表成果。
2 通用系统模型
早期学者们开发了多种本体映射系统,如GLUE,QOM,PROMPT等。近年来在国际语义网会议的推动下,特别是举办OAEI(the Ontology"Alignment Evalua―tion Initiative)竞赛以来,多种通用本体映射系统亮相OAEI,有效促进了本体映射的发展。例如,Falcon―AOt、PRIOR+、DSSim ESl等近20种本体映射系统先后参加比赛。本文选取全程参与最近三届(2007―2009)OAEI竞赛的通用系统,这些系统由于连年参赛,在测试中不断改进与完善,基本代表了本体映射系统最新的发展水平。
2.1 RiMOM
RiMOM是多策略动态本体映射系统,其采用贝叶斯理论,结合自然语言处理技术整合多种本体映射策略。RiMOM框架见图1。
结合图1,可将RiMOM匹配过程概括为以下5个步骤:
2.1.1 本体预处理与特征因素评估将待匹配本体装入存储器建立本体图表,去除非相关信息,计算待匹配本体的标签相似因子、结构相似因子和标签意义相似因子,以此评估策略选择。
2.1.2策略选择执行策略选择算法,即如果两个本体具有某些相同的特征,那么基于这些特征信息的策略将被选择并进行加权;如果本体特征信息较低,那么将不采取基于上述特征信息的策略。
2.1.3单个策略执行得到所选策略后,发现个体匹配,每一个策略输出一个匹配结果。
2.1.4 策略结果整合通过线性插值方法合并匹配结果。
2.1.5相似度优化与精炼如果两个本体有较高的结构相似因子,使用相似度优化过程进一步精炼发现的映射,依照结构化信息发现新的匹配。RiMOM基于相似度传播理论(similarity Propagation Theory)提供了3种相似度聚合策略,分别是概念一概念、概念一属性、属性一属性聚合方法。在此基础上,系统通过多个启发式规则剔除不可靠的映射,精炼匹配结果。
RiMOM是以贝叶斯决策理论为基础开发的本体映射系统,它在OAEI 2009中参与了标准测试、解剖测试、目标匹配和实例匹配4种类型的竞赛。作为2009年新推出的实例匹配测试项目,其由于具有更多实例的语义信息及属性,测试要求更高。为此,RiMOM在优化OAEl2008版本中8种策略的同时,针对实例特征推出了若干新方法。与此同时,亦有若干问题有待进一步提升。例如,面对比原有模式文档多得多的大规模实例文档,RiMOM在测试的效率及稳定性方面如何保证;此外,如何深层次挖掘实例的语义信息等也是研究面临的重要挑战。
2.2 ASMOV
ASMOV是由美国Jean-Mary等人开发的自动化本体映射工具,其目标是促进异构本体的整合,ASMOV运用迭代计算分析3种特征计算实体本体对的相似度,产生基于概念间的映射、属性间的映射和个体间的
2.2.1 预处理ASMOV使用Jena的ARP解析器和建模组件加载解析本体,采用UMLS元词表或Word,Net计算概念、属性和个体间的词表相似度,运用文本匹配算法计算词表距离。
2.2.2 相似度计算与预匹配 ASMOV通过外部匹配、内部匹配和个体匹配算法计算实体对的关系结构相似、内部结构相似和扩展程度相似,得到基于相似策略的概念矩阵、属性矩阵和个体矩阵等3个二维矩阵。随后抽取具有最高相似计算的本体与其他本体形成联系实体,完成预匹配。
2.2.3 语义确认与匹配结果 查找并除去预匹配中语义不一致的映射,并将其保存在日志文档中,避免后续迭代重复,直至找到可匹配的所有结果。
从整体上来看,ASMOV在召回率和F度量方面较2008年已取得不俗成绩的基础上再次有了提升。与此同时,在IIMB(ISLab Instance Matching Bench―mark)测试方面结果高度准确;在实例匹配中的彻底重新设计,有效改善了性能。针对其测试的范围及卓越性能,ASMOV可用于书目、生物医学等多种领域本体方面。值得关注的是,基于大规模实例文档的实例匹配,ASMOV仍需进一步优化。
2.3 DSSim
DSSim是由英国开放大学Nagy等人共同研制,适合大规模本体映射的通用系统。它是基于多智能代理体系结构的本体映射系统,每一个智能代理通过特定映射假设的修正建立一个可信函数(belief),大量可信函数整合得到更为合理的匹配策略,从而提供最佳映射(主要流程见图3)。
基于特定参数将大规模本体分割成n*m片段,解析本体片段并将其装入匹配任务队列。
执行匹配安排,向空闲处理器核分配任务:①从本体1中选择用户使用的概念或属性并考虑其作为查询片段;在算法上参考WordNet,通过WordNet的上位词扩大查询概念或属性。②从本体2考虑在语句构成上相似的概念或属性构建查询图,建立局部本体图查询,其中包含概念和属性以及上述环境的局部本体查询片段。③通过语义相似度算法评估查询结点与本体片段两者的相似值。④可信质量函数由登普斯特整合规则(Dempstm’s rule of combination)构成,并受相似性矩阵的制约。处理器选用计算值最高的可信质量函数进行映射,对于不符合条件的进行迭代计算。
将所选的映射加入匹配集合中,获得匹配结 果。DSSim针对本体映射中表示和推理的不确定性在问答情景中采取登普斯特一谢弗理论,这与同为解决不确定性的RiMOM运用贝叶斯理论不同。DSSim参与了OAEl2009中的标准测试、解剖测试、目录测试、实例匹配等4类共7个项目的竞赛,它与ASMOV是该年度参加项目最多的两位,但在召回率和F度量测评方面DSSim均与ASMOV存在差距。
2.4 小结
除上述三种本体映射系统外,还有另外两种本体映射系统Lily和TaxoMap亦参与了OAEI近3年的比赛。其中,Lily是基于语义子图的通用本体映射系统,TaxoMap是以发现概念间的丰富联系为目标的本体匹配工具。限于篇幅,这里不再赘述。
3 领域系统模型
领域系统是建立在某一特定领域或解决某一特定问题的本体映射系统。较通用系统而言,领域系统在解决特定领域本体互操作方面有其优势。
3.1 OntoMap
来自巴西圣保罗大学科学计算与数学研究所的Linhalis等学者,针对自然语言与计算机进行通信除英语外尚不能够支持多种语言交流的特点,提出采用国际语(通用网络语言中的一种)作为自然语言和计算机之间的中介,通过软件构件执行检索的思路。其目标是促进多种自然语言在计算机中进行处理,为此,他们提出了OntoMap结构模型,结构如图4所示:
OntoMap模型主要是通过通用网络语言(UniversalNetworking Language,UNL)和软件构件来执行自然语言的请求,OntoMap通过访问UNL表示推断构件的语义信息,然后使用该语义信息查找一个乃至多个合适的构件执行请求。为了完成这一目标,OntoMap通过语义映射模块将UNL和构件联系起来。如图4所示,OntoMap模型分为UNL转换、语义映射、构件搜寻与检索三部分。其中,语义映射模块的工作流程如图5所示:
InterComp本体(国际语构件本体)在语义映射模块中扮演重要作用,它与规则一起定义国际语与软件构件之间的关系,同时InterComp本体还用来搜寻和检索软件构件,最终达到执行自然语言请求的目的。In―terComp本体将UNL和构件的语义信息联系起来,UNL令牌分类器在InterComp本体中对UNL语句分类,通过具体的规则推断构件的语义信息,随后通过语义信息搜寻语义信息构件,完成语义映射。
OntoMap模型与其他研究的不同在于将自然语言请求转换成国际语,使得多科咱然语言,特别是使用较少的自然语言(限制语)能够在计算机中处理。但是,其方案仍需借助大量实验抽取更多国际语的语义信息。此外,UNL项目的成熟对OntoMap的发展具有关键影响。
3.2 OntSE
为了克服企业信息系统用户在找寻用户所需要的语义层面的相似信息方面存在的局限,韩国科学技术院Jung M等人运用多维相似与贝叶斯网络方法提出了OntSE模型,如图6所示:
OntSE模型主要由4个本体库和3个模块组件组成:即用户本体库(UOL)、内部形式本体库(IOL)、分类本体库(TOL)和匹配本体库(MOL),分别用来存取用户本体(UO)、内部形式本体(IOL)、分类本体(TO)和匹配本体(NO)。三个模块分别是本体构建模块、本体映射模块和本体更新模块,其功能分别是:
?本体构建:构建用户的关键词本体。
?本体映射:本体库中用户关键词与存储的术语(概念)之间的本体映射。
?本体更新:其目标是通过多维相似与贝叶斯网络算法找到基于用户关键词的相同语义的术语。
OntSE系统主要用于搜索不同企业信息系统的文档语义信息,用户可通过关键词在上述方法的支持下找寻相关概念的语义,在用户协作的基础上检索到相关文档。OntSE模型具有3个典型特征:①通过本体映射找到用户要查找的在语义上相似的概念;②利用用户的关键词描述更新本体库;③用户的历史匹配决策被用来帮助随后的用户搜索。该系统的不足是对于具体领域的参数或加权因子需要大量实验,在此基础上调整赋于合适的参数值满足具体领域信息的需求。
4 本体映射系统评价
无论是通用系统还是领域系统,本体映射系统的优劣均需要检验和比较。以通用系统为例,其评价一般采用OAEI竞赛所提供的公共数据集进行测验。国际语义网会议自2004年开始每年举办一次OAEI竞赛,截至2009年已举办6次。该年测评体系包括5个大类共11种数据集。其中标准测试是竞赛的基础,其目标是考查本体映射系统在算法方面的强弱;而实例匹配则成为近年来关注的热点。上述各类评价指标包括查准率、召回率和F度量,计算公式如下:
查准率:P=发现正确的映射/发现所有的映射
召回率:R=发现正确的映射/所有可能的映射
F度量:F-m=2*P*R/(P+R)
对于大规模本体的数据集来说,查准率和召回率两者相互制约,F度量是上述两种指标的一种平衡。5展望
上述五种研究模型是本体映射研究最新发展的一个侧面。尽管本体映射已成为相对成熟的研究领域,但仍存在很多问题尚待进一步研究,特别是在与相关前沿研究领域的结合方面,本体映射模型及其若干方法的应用亟待关注。例如,发展近5年的关联数据(1inked data)近年来成为图书情报界关注的热点。瑞典、德国、英国等国国家图书馆率先将联合目录、词表或书目数据发布为关联数据,与其他多种资源建立了关联。但是如何将这些关联起来的数据实现进一步整合,以推动关联数据的深层应用成为发展的瓶颈。一些研究人员提出可尝试将本体映射的若干研究成果引入到关联数据中,在解决关联数据的实例异构和值的转换等方面发挥作用,这方面的研究有待深入。