[摘要]在分析电子政务领域本体构建需求的基础上,提出构建领域本体的必备条件。针对这种需求,分析电子政务领域数字档案的特征,并根据该特征,探讨电子政务领域数字档案本体的构建过程。
[关键词]领域本体 数字档案 电子政务 本体构建
[分类号]G252
领域本体是用于描述指定领域知识的一种专门本体。它给出了领域实体概念及相互关系领域活动以及该领域所具有的特性和规律的一种形式化描述。目前,本体模型的研究已经进入实际应用阶段,许多研究领域都建立了适用于本领域标准的本体。Web上有许多可利用的本体资源库,这使得诸多领域专家能够使用它们来共享领域中的信息。
目前,国内图书情报领域关于本体的研究尚处于起步阶段,领域本体的构建是一项需要投入巨大人力物力的科研活动,要构建某一领域内的本体,决非某个人或某几个人所能完成的。本文以电子政务领域数字档案为例,通过对构建本体具体过程的介绍,建立了一个有关数字档案知识本体,希望本文能对未来电子政务领域本体的进一步研究和构建提供有益的借鉴。
1 电子政务领域本体构建问题的题出
电子政务是指公共管理组织在政务活动中,全面应用现代化信息技术、网络技术以及办公自动化技术等进行办公、管理和为社会提供各种公共服务的一种治理方式。在电子政务的初级阶段,需要完成政务数字化、信息化任务:包括电子政务公文数字化、公文流转自动化、数字档案归档、政务信息上网等政务信息化基础工作。
湖北省档局已将2000年以来的11662篇政务公文进行了数字化归档。这些公文涵盖社会经济政治生活的各个领域中的各种事项:有政府专项工作的部署、总结,也有职能部门对相关领域的工作汇报;有会议精神的传达,也有对社会突发事件的报道。内容包括省委、省人大、省政府、省政协以及省委各部委、省级国家机关各委办厅局、各人民团体、各事业单位等形成的法规性、政策性、服务性、公益性文件的目录。这些公文内容广泛,时间跨度长,信息量大,总共的文字统计近2000万。湖北省档案局不仅将这些政务公文进行扫描,数字化归档为Tif格式的图片,还提供这些电子政务公文网上查询服务。但是这种仅仅基于元数据或主题词的查询服务,很难满足知识共享、辅助决策等电子政务需求。
在这样的背景下,湖北省档案局和武汉大学信息资源研究中心联合申请了“知识管理技术方法在数字档案馆建设中的应用研究”项目。在这个项目中,采取本体作为数字档案馆知识管理的核心技术,并以湖北省档案局提供的政务公文作为原始资料,设计并实现基于本体的数字档案馆知识管理模型。基于本体的知识管理模型基础是领域本体库的构建。
2 构建领域本体的必备条件
本体构建是一项十分复杂的系统工程,需要选择合适的开发工具辅助并需要领域专家的参与。笔者认为构建电子政务领域数字档案本体至少需要以下3个方面的准备。
2.1本体形式化描述语言的选择
本体形式化描述语言直接影响本体模型的表达能力和可扩展能力。目前的形式化的本体描述语言非常多,经过比较,选用了OWL。OWL的优点是以Web资源为描述对象,而且是W3C的推荐标准,所以具有良好的应用前景。另外,OWL是基于描述逻辑的。这就意味着基于描述逻辑的OWL的类构造算子和公理都有相应的逻辑描述表示,这样利用OWL构建的本体库在具备良好的表现能力的同时还具有强大的推理能力。这对于Web资源的逻辑检测、本体集成、知识整合是非常重要的。
2.2本体开发工具的选择
目前,国内外已经有许多成熟的本体开发平台软件可供选择。经过我们对部分常见工具的试用与比较,最终选择的是Protégé3.3。Protégé是由斯坦福大学医学信息化研究小组开发的,一个基于Java环境的开放式架构的开源知识建模工具。其扩展的OWL插件是目前最为强大的OWL本体构建工具。Protégé不仅具有良好的可扩展性和简单灵活的用户定制界面,还具有如下一些特性:支持图形化本体编辑模式、支持数据库存储模式、基于OWL数据库的多人开发模式和支持逻辑检测功能等。
2.3领域专家的参与
领域本体构建是本体开发人员与领域专家共同努力的结果。开发人员虽然具有丰富的本体知识和较强的开发能力,但是对特定领域知识却知之甚少,很难建立起面向特定领域的本体模型。所以本体构建非常需要领域专家的参与。在电子政务领域数字档案本体构建过程中,湖北省档案局的3位专家参与了本体库构建。在整个过程中,他们细致而专业的理论支持协助了本体库的成功建立。
3 电子政务领域数字档案的特征
3.1电子政务档案的类型分布
现行《国家行政机关公文处理办法》规定国家行政公文有13类:命令(令)、决定、公告、通告、通知、通报、议案、报告、指示、批复、意见、函、会议纪要等。可以按照上行文、下行文和平行文将公文分为三类。其分类情况见表1。其中议案兼有上行文和平行文的双重特征,通知同时属于平时文和下行文之列,会议纪要可以是下行文,也可以是平行文。
用上述13类公文的类型名在湖北省档案局数据库中进行检索,发现其文件类型分布见表2(数据来自检索结果,可能存在较小的偏差),其中上先行文请示、报告和议案不出现在档案局的数据库中。
3.2电子政务档案的结构特点
档案局电子政务文件以扫描的图片方式进行存放。由于国家对红头文件的格式有着一定的显性限制,并且长期以来,红头文件的书写也存在一定的潜在规律。这些限制和规律为档案领域本体构建提供了一定的便利。电子政务档案一般由文件头,正文和文件尾组成,某些文件可能有附件。正文一般由以下几部分组成:标题、主送机关、原由和事项组成。原由有依据和目的两种。其具体结构见图1所示:
3.3电子政务档案内容的相对确定性
本体在人文社科领域的应用相对较少,其中一个重要原因是人文社科领域的不确实性,不同于数理公式推理演绎过程,人文社科领域的结论多带有主观性。人文社科领域的发展为人类社会带来了多样性,但同时也增加信息管理的难度。
档案公文不同于一般的人文社科文献,它具有一定的确实性。国家或某一部委在某一时间段的政策方针往往是明确的。档案文件的相对确定性有利于档案本体的构建。
3.4电子政务档案内容的相互关联性
政府公文虽然涉及到生活中的方方面面,但从系统学上讲,政府公文所联系的各个团体和个人组成了一个闭合的系统。在这样一个聚集里面,成员是相对稳定的,并且成员级别划分明确。各级职权明确,如公文的接收单位一般是政府、政府职能部门、企业、机关团体、学校和军区等,并且接收对象往往只能是一个团体,而不是团体的某个下属部门或机构。这样在档案 领域本体的构建中所确定的部门本体是有限的。在这样一个闭合的聚集里面,成员节点数量少,而相互联系较多,这决定了各个成员之间的关系是比较复杂的,某一个成员可能成为许多联系的成员节点。正如政府的某一项工作通常要求各个部门的合作,发挥各自的业务专长来完成。
并且在从时间线来看,也存在着多种联系。如一旦上级召开某些会议,作为会议成果,一般会产生一些新的思想和会议精神。一段时间后相关部门便会发布公文组织下属各级政府进行学习。政府会承办一些活动,政府会组织各方面的人力物力来完成这些任务,在活动结束之后,政府可能会有一些通报和表扬。
4 电子政务领域数字档案本体构建过程
电子政务中的档案领域本体构建用户需求明确而且相对稳定,根据本体构建常用方法:Skeletal Method―ology(骨架法)、TOVE、METHONTOLOGY、Cyclic Ac―quisition Process和IDEF-5等方法的特点及适用环境,结合电子政务中档案馆的业务特点和公文的结构和内容特性,提出了档案领域本体构建的方法。借鉴Skeletal Methodology设计,其流程见图2。
4.1识别系统功能需求
湖北省档案馆已经实现了相关公文的数字化,并提供按检索号、组织机构、关键词、人物、文件编号、责任者和时间等多种检索方式,可以说其功能是比较完备的。笔者利用本体对这些公文进行组织,其目的是提供给用户更高效地信息检索途径。相比于此前系统,基于本体的检索系统细化了用户群体,提供更具有专指性的检索服务。笔者将用户分为以下几类:
?公文书写者。政府机构或部门在书写公文时需要关心以下两方面问题:一方面是公文内容与部门已有的思想和政策是否相抵触,若抵触,如何协调和处理;另一方面是拟发布公文与上级机构的思想是否冲突,这种冲突是不被允许的。公文书写者需要查看上级政府的相关政令以及部门以往的思想和政策。本体通过建立部门已有公文之间的关联,并用可视化的方式将不同时间段的相关主题之间的关系展现给用户。
?事件关注和情报了解者。这类用户关注与事件相关的全部公文,本体分子所具有的专题功能可以将同主题的知识聚合起来,并消除冗余。这种呈现方式比以往基于关键字匹配的结果列表更为高效。也存在关注目标不明确的用户,本体分子提供的多粒度知识管理实现了知识组织方式与用户逻辑的统一。用户可以在不同层次的概念之间轻松的实现跳转。
?学习者。此类用户更关注公文中的指导思想,而不是具体的实施方案。这种新的思想是国务院组织相关专家进行多轮讨论,最终以公文的形式发放给各地方政府,并由地方政府结合自身情况来具体实施。
?寻求依据和了解责任者。有些公文是对个人或部门的约束。用户需要查询潜在的行为是否合乎规定。上级部门已有的领导方针和工作指导是部门开展工作的凭据和规范。
?人事、机构关注者。用户想要了解关于某个人的生平,最近的职务情况或者是他受到的所有奖惩。基于本体的政务数字档案馆系统将人物这一概念从源文件中抽取出来,并且赋予一定的语义。对人物的检索不再仅仅是表态字符的匹配,而是语义的筛选。职务作为一个概念与某个特定的人物实例关联起来,本体分子可以处理这种关联随时问的动态变化。
?政策变化探究者。新的政策出台、政策的改变多数是由于一些新现象、新事物的出现而引发的。只有了解政府的指导思想法和意图才可能对新政策有更深刻地理解。
现实事件概念的复杂性决定了本体系统应提供给用户更多的本体库观察视角,更具有针对性。总的来说,基于本体的电子政务数字档案馆系统功能就具有以下特征:语义性、专指性、强推理性和逻辑一致性。
4.2确定核心概念
根据T.R。Gruber的清晰、一致、可扩展性、编码偏好程度最小和本体约定最小的原则,笔者采用核心扩展(middle―out)方法建立领域知识概念模型。其表现形式为:由具有本体雏形的一组核心概念人手,不断扩展本体。
按照核心扩展法,首先需要确定核心概念集。在充分分析了档案公文的结构形式和内容特征之后,确定了“人物”、“组织机构”、“文件对象”、和“事件”4个核心概念。核心概念作为概念模型的顶级概念,须满足没有二义性、互不相交和并集覆盖电子政务数字档案知识的要求。
4.3建立概念层次结构图
确立核心概念后,对由这组具有本体雏形的核心概念进行扩展,建立整个本体概念模型。这是一个自顶向下的过程,即根据事先定义好的上一层父类,分别逐步细化说明其下一级子类。
在建立概念体系过程中,需要考虑和解决概念之间关系的选择和层次结构的组织。领域本体的概念间存在着许多关系,仅仅“部分一整体”关系就达6种之多。“部分一整体”关系是本体构建中常用的层次结构划分标准,其中“Kind of”和“Part of”是两个最常用的。一个结构良好的、可扩展的概念模型要求其层次结构中的概念关系必须是同质的、直接父子概念之间具有相同的泛化程度。“Kind of”关系能够很好的满足这些要求。
经过对概念模型中的概念进行消除二义性、同层次概念间互不相交以及并集覆盖整个父类概念范围的处理,最后得到了电子政务领域数字档案本体概念模型,如图3所示:
根据本体工程的要求,人物划分为公职人员、商界人物、公众人士和国际人士。这一划分符合本体无交叉,覆盖完全的原则。结合公文领域所涉及的组织机构特点和用户需求,对组织机构做如下细划:政府机构、职能部门、国有企业、私营企业、团体学校和军区六种。之所以将政府机构和政府职能部门划分开来,是因为虽然职能部门在自己相关领域表现了扮演的角色,但是其在公文领域所扮演的角色与政府机构的极大的差别,他们的决定与建议只能通过政府来进行转发。这里定义的职能部门包括省级的财政厅、教育厅、交通厅、人事厅、信息产业厅、农林厅、地矿厅和水利厅等。市级的有发展计划委员会、经济委员会、建设委员会、教育局、科学技术局、监察局、民政局和司法局等。国有企业和私营企业因出现在公文中的概率不一样而被划归为两种,其经济成份性质也让人有理由将其划分开来。
按照公文类型对公文进行划分,因为不同类型的公文一般具有不同的内容和结构。按照通知的适用范围将通知分为以下4种:①批转下级机关的公文;②转发上级机关和不相隶属机关的公文;③传达要求下级机关办理和需要有关单位周知或执行的事项;④人事任免。通报分为:表彰先进、批评错误、传达重要指示精神或者情况。请示、批复、意见、函和会议纪要因其内容单一而不进行划分。其主要内容与字面意思保持一致。
4.4定义概念、术语和属性
概念层次结构还只是本体的骨架,其血肉就要通过概念间的关系,即属性来充实。根据项目的特点,概 念需要定义两种属性,一种用于描述概念的自身信息和结构;另一种用于描述概念之间的关系,即数值属性与对象属性。同时,还需要进行概念和关系明确定义的工作,即对属性自身的性质,如取值类型、允许取值以及属性的基数进行说明。
4.5本体编码
在这个阶段,笔者利用OWL描述语言显式地形式化上个阶段完成的概念模型,这部分工作主要是通过Protégé+OWL插件的本体开发工具来完成的。出于本体资源可重用性和开发协同性的考虑,没有像大多数本体构建项目一样,将4个核心概念和角色属性类本体定义在一个OWL文件里。而是将4个核心概念分开定义到4个OWL文件,角色属性类根据其语义增强的对象的不同定义到不同的本体文件中,这样就得到4个本体文件。
同时,通过OWL中的注释属性来对本体资源(类、属性、实例等)进行标注。利用这些属性可以标注本体资源的版本信息、领域信息、分类信息以及开发者、备注等。这有助于开发人员分享、交流以及其他Web服务和本体获取工具对该领域本体资源的识别和使用。Protégé中还提供了逻辑检测的功能。笔者利用Racer推理机对本体库概念和属性进行逻辑检测,保证了所建立的本体库结构的正确性。
4.6实例化
实例化工作包括实例声明、实例描述和关系关联三个部分。因为此本体构建项目的特点是侧重信息描述(实例表现),所以实例化是整个开发工程过程中工作量最大,最为烦琐的部分。虽然Protégé可以帮助我们自动生成符合OWL语法的库文件,但是手工在Protégé中进行大量的实例声明、实例描述和关系关联仍然是非常烦琐的。所以为了减轻本体构建的工作量,项目组开发了一个基于XML模式匹配的中文半自动构建系统――OntoLTCn。OntoLTCn是在OntoLT基础上进行二次开发的成果。OntoLTCn总体上按照Protégé插件框架开发,运用了中文词法分析技术,将原本面向德语文本的OntoLT框架应用于中文本体建库。
4.7工作成果
从档案局11662篇电子公文档案中,总共建立本体类76个,关系属性47个,本体实例数量5427个。其中核心本体类有4个:“人物”、“组织机构”、“文件”和“事件”。这4类核心本体是湖北省档案局相关领导和公务员共同讨论确定的电子政务领域最核心的基本概念。在此基础上,进行了本体实例抽取,并进一步建成本体库。
5 结论
文章主要介绍在课题研究中所做的本体构建工作,总结了项目实施中对本体的构建过程。笔者相信利用本体的思想和方法来组织电子政务领域数字档案知识,构建面向知识的数字档案本体库是一次非常有意义的尝试。希望在该项目上所做的工作能够对大家有所帮助,也衷心希望和大家交流经验、相互学习。