[摘要]针对基于形式概念分析(FCA)的领域本体构建方法的优化问题进行论述,解决优化的四个难点,应用并行开发的工程思想,采用“分而治之、映射集成”的具体手段,提出一种新的基于FCA的领域本体构建方法并建立“增量模型”。该方法将整个领域本体构建过程分解成核心本体和若干个并行开发的增量本体的构建过程,而后将核心本体和增量本体通过本体映射和本体集成的手段进行按需组合,最终得到用户所需领域本体。
[关键词]形式概念分析 领域本体构建方法 增量模型
[分类号]G353
领域本体作为一种有效的形式语义模型和知识表示形式,在图书情报领域的应用越来越广泛和深入,这在客观上促进了领域本体构建方法的不断涌现和更新。基于形式概念分析(FCA)的领域本体构建理论在此背景下应运而生。FCA强调用数学手段来表达客观知识,可以削弱开发者对领域本体构建过程的主观影响,并能挖掘出领域中隐含的概念以及概念之间的层次关系。FCA通过用数学符号从内涵和外延两方面表示所有概念,达到了形式化概念模型的效果,因此基于FCA的领域本体构建方法越来越倍受国内外相关学者关注和青睐。国内外对基于FCA的领域本体构建方法的研究目前仍然处于探索阶段,虽然有些方法有着一定的可取之处,但仍存在着诸多不足,还需不断地深入研究。
1 国内外基于FCA的领域本体构建方法的简要分析
目前国外提出的具有代表性的基于FCA的领域本体构建方法主要有:Cimiano方法、GuTao方法、Haav方法、Marek Obitko方法。
Cimiano方法提出了从领域文本出发自动解析“概念一属性”关系的基本思路,具有借鉴意义。但该方法使用语言解析器解析出的只有动宾关系,从概念格向领域本体转换时,以概念节点的内涵对节点命名,将概念节点的外延添加为概念节点的子节点,存在不合理性。
GuTao方法提出了领域本体构建中循环反馈的开发思想,其开发的fcatab插件可自动从领域概念和关系得到形式背景,但Fcatab只支持单值形式背景,且必须依托protege本体建模工具。
Haav方法在一定程度上实现了本体的逻辑表述,提出了领域本体的扩充机制,考虑了领域本体的推理。但初始本体到一阶谓词逻辑表示集合的转换过程需要通过FCA和规则语言映射,这种映射复杂、费力且不易实现。
Marek Obitko方法提出了一整套对形式背景和概念格的编辑修改机制,值得借鉴;但该方法每次构建都从空的对象和属性开始,因此对对象和属性的添加是一项及其复杂的过程,工作量大,只适合小领域本体的构建。
上述方法一是缺少工程化、规范化、标准化、细节化的指导思想,仅将着眼点放在领域本体的需求分析、设计与实现三个环节,忽略了领域本体构建的其他阶段;二是未明确二者间的结合机理,以致对两者之间在哪些方面进行结合以及以何种形式结合的问题理解得不够深入,从而造成形式背景的构建、概念格到领域本体的映射方式、领域本体的概念关系处理等诸多方面的不合理性。
国内研究人员对该课题的研究起步较晚,大多数研究都停留在对国外方法的综述或引入上。综述性文献中有代表性的是文献[7]和文献[8]。引入性文献中有代表性的是文献[9],另外文献[10]尝试糅合了Cimiano方法与Marek 0bitko方法,但这种糅合缺少深层次的研究讨论。
2 基于FICA的领域本体构建方法优化的核心问题
2.1 基于FCA的领域本体构建方法优化的动因
通过对国内外基于FCA的领域本体构建方法的简要分析,本文总结了当前各种典型方法的局限性,基于FCA的领域本体构建方法要向前发展,就必须冲破这些局限性的束缚,打破这些阻碍。本文将基于FCA的领域本体构建方法优化的动因总结为以下5个方面:①线性开发过程一并行开发过程;②一次性全部提交领域本体一分批次提交领域本体;③简单领域背景一复杂领域背景;④封闭结构一开放结构;⑤弱复用一强复用。
2.2 基于FCA的领域本体构建方法优化的思路
本文对基于FCA的领域本体构建方法的优化思路是采用并行开发的工程思想,应用“分而治之,映射集成”的具体思路,将领域本体划分为核心本体和一系列的增量本体两部分:核心本体的目的在于构建满足领域本体的基本需求的本体,其规模适中;而增量本体的目的在于实现领域本体的增量需求。这样,领域本体就可以表达为以下的代数形式:
::={Oc,Oi,Rci,Rii}
其中Oall表示领域本体,Oc表示核心本体,Oi表示增量本体,Rci表示核心本体和增量本体之间的映射集成关系,Rii表示增量本体之间的映射集成关系。
用户就可以根据实际的需求,按需提取核心本体和增量本体,并按照映射集成机制将所需的本体集成起来,得到所需要的领域本体。这种思路,可以保证领域本体开发的并行过程,能分批次向用户提交领域本体,可以将复杂领域背景分解为一系列简单领域背景,打破封闭式的开发结构。
2.3 基于FCA的领域本体构建方法优化的具体内容
基于FCA的领域本体构建方法的优化的具体内容主要包括两个方面:一是在宏观上对领域本体构建的过程进行优化,改变传统领域本体构建过程的线性开发模式,采用并行工程的思想,将领域本体构建过程优化为“增量模型”模式;另一方面是在微观层面上对领域本体设计、领域本体实现过程的优化,在“增量模型”的指导下重新调整基于FCA的领域本体设计过程和领域本体实现过程。
3 一种新的基于FCA的领域本体构建方法
3.1 新方法的基本原理
本文提出的基于FCA的领域本体构建方法的基本原理是:应用并行开发的工程思想,采用“分而治之、映射集成”的具体手段,将整个领域本体构建过程分解成核心本体和若干个并行开发的增量本体的构建过程。换言之,就是领域形式背景根据相关理论分解成若干个兼容子背景,进而分别根据子背景构建概念格,得到概念层次模型和本体原型,进而通过领域本体的扩充和形式化描述,得出相应的核心本体和增量本体,最终将核心本体和增量本体通过本体映射和本体集成的手段进行按需组合,得到知识用户所需的领域本体。
3.2 新方法的模型构建
基于FCA的领域本体构建方法涉及到方方面面的复杂问题,要把握住该方法的本质,只有通过建模的手段,对基于FCA的领域本体构建方法进行不同侧面或不同层次的抽象。本文拟对所提出的新的基于FCA的领域本体构建方法从两个层面上进行建模:一是对该方法宏观上的描述,即建立该方法的总体模型(根据其特征称为增量模型);二是对该方法微观上的把握,即对如何利用FCA完成领域本体的设计、编码、映射、集成和测试等微观操作进行建模,建立该方法的微观模型。
本文提出的基于FCA的领域本体构建方法的增量模型如图1所示:
具体来讲,各个模块主要完成的任务或功能如下:①制定计划模块:明确领域本体开发项目的进度安排,调度项目所需要的各类资源,对领域进行初步调查,并充分考虑建立领域本体所受到的种种约束,研究构建该领域本体的必要性和可行性,做出可行性研究报告。可行性研究报告评审通过之后,编写成领域本体开发计划书。②领域本体分析模块:对领域本体进行以下方面的详细分析:领域范围、构建的原因、建好后的用途、形式化程度、用户范围等。最重要的是对领域本体的需求分析。通过对领域本体进行上述分析,编制领域本体分析说明书。③领域本体概要设计模块:应用形式概念分析理论,从领域基础数据出发,通过预处理,将领域本体从概要上划分成表达领域本体基本需求的核心本体和一系列表达领域本体增量需求的增量本体两个部分。形成领域初始形式背景并将之划分成核心背景和一系列增量兼容子背景,编写领域本体概要设计说明书。④基于FCA的领域本体详细设计、实现、映射、集成和测试模块:从核心子背景或各兼容子背景出发,通过概念格转换,概念层次模型生成的过程,把得出的概念层次模型转换成相应的本体原型,并对原型进行合理扩充,通过选择合适的本体描述语言,进行本体的形式化描述,最后在本体映射机制的指导下,将各个增量本体根据需求集成到核心本体当中,经过领域本体测试,排除错误。形成领域本体详细设计说明书、编码清单和测试报告。⑤领域本体维护模块:领域本体试航,追寻潜在的错误。维护的具体内容包括改正性维护、适应性维护、完善性维护和预防性维护,最终形成维护报告。
对宏观模型的领域本体设计实现映射集成环节进行深入地分析和研究,就可以得出如图2所示的基于FCA的领域本体构建方法的微观模型:
其中,各模块的主要任务是:①形式背景(核心或兼容子背景)处理模块:从核心子背景或增量兼容子背景出发,判断各个子背景是否为多值背景,若是,则通过相关转换技术将多值背景单值化,最终形成单值形式子背景。②概念格处理模块:将上步形成的单值子背景通过概念格构造算法转化为概念格,并由hasse图的形式显化出来,在可视化的基础上对概念格是否合理进行判断,对不合理的概念格按照一定的规则进行对象编辑或属性编辑,循环之,直至出现较为满意的概念格。③概念层次生成模块:将概念格转换为概念层次模型,主要包括底端节点处理(直接删除)、节点关系处理(转化为概念层次关系)及顶端节点处理(转化为根概念)三个方面。模块的输出结果是领域本体概念层次模型。④领域本体原型及其扩充模块:根据领域本体概念层次模型,将每个概念节点标示为一个领域本体概念,概念层次关系映射为领域本体概念分类关系,从而实现领域本体层次模型向领域本体原型的转换。而后在领域专家的参与下,对领域本体原型进行属性扩充、实例扩充、公理扩充,最终形成扩充后的领域本体原型。⑤领域本体形式化描述模块:选择合适的本体描述语言(如owl语言),对扩充后的领域本体原型进行形式化描述,最终得到领域核心本体或增量本体。⑥领域本体映射集成模块:通过本体映射判断核心本体和增量本体以及增量本体和增量本体之间的关系,可以此为基础进行本体集成操作,即根据用户需求将增量本体集成到核心本体中。
本文所提出的增量模型和微观模型的每一个模块实质上对应的是基于FCA的领域本体构建方法的一个步骤,因此,本文提出的基于FCA的领域本体构建方法的步骤就可以通过对模型的细化得出,在此不做赘述。
3.3 新方法的优点
与当前主流的四种基于FCA的领域本体构建方法相比,本文提出的基于FCA的领域本体构建方法更具有优势。本文通过表1分别从18个方面对优化后的新方法与优化前的方法进行了定性的对比分析来阐明新方法的优势:
4 结语
基于FCA进行领域本体构建的诸多优势随着对该方法的不断深入认识和讨论而越来越被国内外学者关注和接受。然而相应的基于FCA的领域本体构建方法理论尚没有形成统一的观点。本文借鉴软件工程中并行开发思想,采用“分而治之,映射集成”的思路提出了一种新的基于FCA的领域本体构建方法,解决了当前方法所不能解决的一些问题。尽管如此,本文所提出的方法受领域本体映射技术和集成技术的影响仍有局限性,还有待于进一步深入研究,因此,基于FCA的领域本体映射技术和集成技术将成为本文后续的研究方向。