[摘要] 面向信息资源管理和数字图书馆建设领域,讨论知识网格的有关问题。指出知识网格是网格、语义网和语义网格发展的有机融合和必然趋势;分析知识网格的基本内涵,揭示知识网格内容与功能方面的5个特征;对知识网格研究进行了定位,认为数字型客观知识是知识网格中主体知识,领域本体是知识网格中的知识组织体系,网格是知识网格中领域本体资源的整合器;提出立足整体、抓住核心、面向应用的知识网格研究思路,并给出当前知识网格研究需要解决的几个主要问题。
[关键词] 知识网格 语义网格 领域本体
[分类号] G250.73
1、引 言
近年来,随着网格、语义网、语义网格的深入研究和研究内容的交汇融合,知识网格开始受到多学科的特别关注。首先切入知识网格的是计算机领域的研究者,他们从自身的学科角度出发,为我们描绘了一幅共享知识的美好蓝图。由于研究伊始,这幅蓝图还是混沌而模糊的。知识网格到底是什么,它究竟应该是什么模样,在知识网格的概念、功能、模式等基本问题上,还没有一个具体清楚的说法。本文面向信息资源管理和数字图书馆建设领域,对知识网格若干基本问题、知识网格研究的定位和研究体系等进行初步讨论。
2、知识网格:网格/语义网/语义网格的有机融合
知识网格是网格、语义网和语义网格发展的有机融合和必然趋势。
网格内涵虽然异常丰富,但其核心要旨是构筑在互联网上的一种新兴的基础设施或是一组新兴的集成技术,凡是能够超越传统的Web技术,完成以往所不能完成的集成互联网资源与服务的技术,都可称之为网格技术。网格经历了三代发展,其功能也有个逐步演化的过程,从大规模数据处理发展至关注信息层处理和面向服务的方法,由强调网格服务与Web服务的差别,转向充分兼容和利用Web服务。2002年Globus联盟等发布的开放性网格服务架构OGSA(Open GridServices Architecture),到2004年新的网格服务标准草案WSRF(Web Services Resource Framework,Web服务资源框架)的诞生,标志着网格与Web服务的彻底融合。目前第三代网格实际是网格与Web服务的兼容体,强调网络、硬件、软件资源、信息资源与服务的共享能力。
万维网创始人Tim Burners-Lee描述的语义网内涵似乎比网格要确定些,其基本思想是在万维网信息中加入计算机可理解的具有语义的元数据,他给出的语义网体系模型,确立了本体在万维网资源组织中的核心和主干地位,在理论和逻辑上使万维网由数据网、信息网进化到知识网成为可能。
网格和语义网是构建于互联网历维网之上的两条平行而独立发展的技术路线,强调的重点有所不同。网格侧重于集成技术,但集成的是没有(缺乏)语义的资源对象;语义网侧重解决资源语义问题,然自身难以实现各种异构语义资源的集成与共享。综合两者的优势,语义网格应运而生。
David De Roure等于2001年提出语义网格(Semantic Grid)概念,将其定位为未来e―Science的基础架构。此后,全球网格论坛(GGF)成立了的语义网格研究组,其目标即研究语义网技术如何应用干网格,该组织将语义网格界定为当前网格的延伸,是语义网技术在网格中的应用,语义网格的优势在于它比网格具有更丰富的语义,比语义网具有更强的数据计算能力。英国曼彻斯特大学Norman paton给出的著名图示清晰地表明了语义网格、语义网、网格和Web之间的关系。(见.图1)
简单说,语义网格是语义网和网格(Web服务)的融合与优势互补,它以具有语义的领域本体为基础,通过网格的集成能力实现万维网异构语义资源的互操作。然而,语义网格虽能共享万维网的语义资源,但难以从知识资源中发现更深入、细致的知识。由此,走向知识网格成为必然。
3、知识网格基本内涵
2001年,Fran Berman提出知识网格(Knowledge Grid)概念,认为知识网格的主要研究内容是集成知识,利用网格、数据挖掘、推理等技术从大量在线数据集中抽取和合成知识,使搜索引擎能够智能地进行推理和回答问题,并从大量数据中得出结论。在此基础上,人们对知识网格的理解不断发展,例如,文献提出了基于数据挖掘的知识网格,文献认为知识网格是一个高层次的系统来提供以网格为基础的知识发现服务,通过网格技术从巨大的数据组中进行数据挖掘和知识发现,支持知识发现过程的所有阶段。文献认为,知识网格是一个智能互联环境,它能使用户或虚拟角色有效地获取、发布、共享和管理知识资源,并为用户和其他服务提供所需要的知识服务,辅助实现知识创新、协同工作、问题解决和决策支持。上述界定,除描述了知识网格的基本内涵,还给出了知识网格一个应用特征,即知识发现和知识服务。虽然对这一应用功能的研究目前不甚清晰,但这一功能定位是被知识科学领域所认可的。
目前对于知识网格尚无统一的认识,但依据上述研究成果,根据语义网格的逻辑发展以及不断拓展的知识需求,我们可以这样理解知识网格:首先,知识网格不是空中阁楼,它存在于现有的理论、方法和技术之上,是一种高层次的知识组织与共享的理念;其次,知识网格是建构于万维网之上的一种知识互联的智能环境,它不仅提供异构语义资源的共享能力,还具有基于语义资源的知识服务的应用能力。
现在学术界对知识网格和语义网格的概念尚无明确的划分,笔者以为,知识网格和语义网格的功能、目标基本一致,都是立足于万维网知识的处理与共享,没有本质性区别,可视为相同概念。知识网格的称谓通俗而规范,可替代语义网格概念。
基于上述认识,知识网格的概念可以界定为:知识网格是一种建立在万维网之上的知识共享环境。它以网格/语义网为基础架构,实现异构语义资源的整合与获取,并提供基于语义资源的知识服务。其本质是万维网知识资源和知识服务的协同与共享。图2展示了知识网格的构建。
4、知识网格特征
4.1知识网格特征的多层次性
文献描述了知识网格5方面特征,即:在单一语义入口使用全世界范围的知识;智能的收集、融合和发送知识;单一语义映象;全球范围的完全知识服务;知识的动态评估。
知识网格特征的展现是多角度的。首先,知识网格作为一个复杂系统,具有整体性、综合性、结构性、动态性、层次性、演化性等系统的公有特征;其次,知识网格作为语义网格的延伸,应涵盖、继承语义网格(包括网格、语义网)一些基本特征;其三,知识网格还应具有一些自身的特性。下面主要从后两点出发来阐述知识网格内容与功能方面的主要特征。
4.2知识网格基本特征
4.2.1 知识网格是一种新的知识组织的理念和模式 知识网格的本质是知识的共享与协同,它将蕴涵在万维网信息资源 中的“知识”看成是知识网格资源的主体,将对数字型客观知识的组织、挖掘、提炼、传播与共享作为自身的目标。技术的变革为实现这一目标提供了可能。通过新型的技术与方法,改变万维网资源局部有序而整体无序的现状,形成以知识组织体系为支撑的知识互联与共享的大环境,促进知识的传播与利用,已不再是遥远的梦想。
4.2.2 知识网格以网格与语义网为基础架构如前所述,网格和语义网基于万维网,从不同角度整合万维网的资源与服务;知识网格(语义网格)是两者的有机融合,立足万维网异构语义资源节点及服务的集成与共享;从网格、语义网到语义网格和知识网格,他们之间不是相互割裂、孤立存在的,而是继承、融合、发展和延续的关系。
4.2.3 知识网格以信息组织成果为知识层基础 作为新型知识组织模式的知识网格不可脱离现有信息组织成果。图书情报界的数字图书馆以及企业、政府等相关信息机构积累的经过信息组织的元数据,既是用户重要的信息来源,也是万维网资源的主要组成部分。将不同元数据集合赋予语义所形成的语义资源,是知识网格的主体资源。
4.2.4 知识网格以领域本体为核心领域本体是知识网格知识层构建的核心。领域本体组织资源的基本思路,即是在信息资源集合层之上构建反映领域知识结构的本体概念模型,对资源进行基于语义的元数据标注,形成具有语义关联的语义网节点。利用网格技术集成、整合这些异构的语义资源节点,知识网格方可实现。
4.2.5 知识网格以知识服务为最终目标知识服务是一种基于语义资源系统、以知识检索与利用为目的的过程与方式,是知识网格主要应用目的。包括提供知识导航、知识检索、知识发现等应用服务。知识导航即通过一定方式循着知识的语义关系浏览知识;知识检索即能够实现基于概念的智能化检索;知识发现一般指从数据库中发现有价值的知识,并表示为易于理解的模式或规则的特定过程有效知识发现的前提即是具备正确、完整和集成的数据源。知识网格中整合的具有语义关联的资源系统,为知识发现提供了更好的资源与技术平台。
4.2.6 知识网格以统一的门户提供知识服务知识网格面对用户的是一个单一的入口,在此能共享存储于万维网任意一地的知识。“统一的门户”包括以下含义:一是构建在异构语义资源节点之上,依据公共标准协议,通过网格实现资源的整合与协调;二是能提供不同目的、不同层次的知识服务;三是以可视化、形象化、易理解的方式展示知识。
5、知识网格研究定位
知识网格的研究定位,即是知识网格的研究前提和研究基点。定位不同,研究的着眼点就不同,其结论和效用也不尽相同。研究知识网格,需要明确几个基本问题,即知识网格中的知识、知识网格中的知识组织体系、知识网格中的网格。
5.1 数字型客观知识是知识网格中的主体知识
知识是知识网格中组织与管理的直接对象,也是知识网格研究的逻辑起点。研究知识网格,首先要对知识的边界与范围进行划定。目前计算机界有一种认识,即将“知识流”中的主观知识框进知识网格,这种观点值得商榷。
知识包括客观知识和主观知识。客观知识也称显性知识,是指经过不同程度的标引与描述,存储于各类信息系统中的知识。其特征是以信息/知识的物化形态――文献为载体,可通过技术手段进行任何形式的处理,易于交流与共享。主观知识也称隐性知识,是指人的诸如技能经验、思维方法等方面的个性化知识,其特征是以个人的精神世界――大脑为载体,不可对其进行任何形式的处理,也难以交流与共享。
显而易见,这两种知识的表现形态和处理机制具有本质性差异,知识网格不可能“一网打尽”。知识网格以万维网为基础,蕴涵知识的数字型资源是万维网的资源主体。因而知识网格中的知识应是客观知识,是记录于数字文献中、能以数字化形式表现和获取的客观知识。如此,知识才可抽象为概念与关联,赋予其元数据和语义,才能利用技术手段进行不同形式的组织与管理。对知识范围进行必要的定位,是研究知识网格的前提条件。
需要指出的是,笔者不赞同将主观知识纳入知识网格研究范围,并不是认为这类知识不重要。主观知识进入知识网格的前提是:由隐性知识转化为显性知识。不过这种转化工作是认知科学和人工智能的职能,而不属知识网格的功能范围。知识网格不可能“大包大揽”,代替、囊括知识领域的所有工作,其功能不可无限制延伸。
5.2 领域本体是知识网格中的知识组织体系
知识组织体系是构建知识网格的纲领。知识网格的实质是实现万维网资源的语义互联,它的构建必须依赖于知识组织体系。没有也不可能有脱离知识组织体系来实现所谓知识的“智能聚合”、“动态演化”的知识网格。知识组织体系的核心是描述与揭示概念及概念间的相互关系,它不仅表现为一套概念体系,还具有支持资源进行描述与组织的相关功能。在组织客观知识的网格中,知识组织体系扮演着重要角色,是知识网格的纲领。一切关于知识网格的研究,都必须紧紧围绕这个纲。
领域本体是知识网格中组织领域知识的知识组织体系。任何客观知识都是某一领域的。领域本体是对某一领域的客观知识基于语义的组织和管理的机制。知识网格由众多的领域本体构成,针对不同领域的资源集合构建起的一个个不同的领域本体,是知识网格的资源基础。离开了具体的、微观的领域本体,知识网格就是空网。领域本体是知识网格的灵魂,研究知识网格,不能游离这个灵魂。
各领域的信息机构是领域本体的提供(或建设)主体。领域本体资源应由不同类型的信息机构和各学科专家共同承担建设与研究,这些信息机构负有管理某一领域知识整个生命周期的职责,可保证资源长期、稳定、方便地为之使用,这是知识网格可持续发展的保障,是知识网格研究所必须关注的。
5.3 网格是知识网格中领域本体资源的协调/整合器
美国网格专家Ian Foster界定了网格应具备的三要素,即协同使用非集中控制资源,使用标准、开放、通用的协议和界面,得到非平凡的服务质量。这一界定揭示了网格与具体应用管理系统的区别,即网格建构在具体的异构资源系统之上,通过公共标准与协议整合异构资源及不同的服务。
在万维网上,领域本体的表现形态是相对独立的、具有语义的资源节点,是一个个提供具体应用的本地知识资源管理系统,需要利用网格技术进行协调与整合,提升为“格”,方能实现更大范围内的知识共享。这样的构建才能称之为知识网格。简单说,知识网格是网格技术和知识组织体系机制的融合,在知识网格中,网格起着协调,整合器的作用,即协调、集成、控制分布式语义网资源。
6、知识网格研究内容
6.1 知识网格研究思路
首先要立足整体。知识网格不纯粹是一个技术框架,必须综合理论、方法、技术与应用进行整体性和系统性研究;其 次要抓住重心。知识网格中最重要、使用最多、起支撑作用的不是计算资源、设备资源,而是知识资源。知识层的构成,知识层中基于领域本体的知识组织,应是知识网格的研究重心;第三要面向需求。知识网格研究要以明确的应用需求为牵引,以避免盲目性及随意性。
6.2 知识网格主要研究内容
跨学科性质及其高层次应用使得知识网格研究内容显得广泛而复杂;但研究基点无外乎以下三个:一是要研究知识网格的理论与方法,以使研究具有科学性和导向性;二是对知识网格的构成要素进行一体化研究,以使研究具有通用性和可行性;三是要研究知识网格的应用,以使研究具有针对性。目前知识网格研究需要解决的主要问题有:
6.2.1 知识网格基本理论问题主要研究知识网格的研究对象,核心概念,知识网格的目标、功能、特征等。
6.2.2 知识网格基础 主要研究知识网格理论基础(对知识网格具有启示作用的理论观点),方法基础(对知识网格具有直接指导作用的一般科学方法),技术基础(对知识网格具有重要支撑作用的相关技术)
6.2.3 知识网格体系结构 主要研究知识网格体系结构基本原理,基于领域本体的知识网格通用结构模型的构建。
6.2.4 知识资源空间模型 主要研究知识资源空间模型构建的内在机理、结构,以领域本体为核心的知识资源空间模型的构建。
6.2.5 领域本体的构建机制 主要研究领域本体构建方法、工具,领域本体进化、评价、共享等。
6.2.6 领域本体的学习与进化研究领域本体学习/进化的模式、方法、技术等。
6.2.7 基于领域本体的资源语义标注研究资源语义标注的方法、技术(包括知识/知识元抽取),非规范资源的自动/半自动语义标引等。
6.2.8 领域本体资源的管理与共享研究知识网格环境下分布式语义资源的共享与管理体系的构建。
6.2.9 知识网格环境下的知识服务主要研究知识网格环境下基于领域本体知识服务的模式与运行机制。
6.2.10 应用案例研究学科知识网格的应用(以学术资源为基础),企业知识网格的应用(以企业资源为基础),电子政务知识网格的应用(以政务资源为基础)。
7、结语
本文以现有研究为基础,分析了知识网格的缘起,阐述了知识网格的概念与特征,讨论了知识网格的研究前提,提出了现阶段知识网格的主要研究内容。知识网格是一个多学科的研究领域,不能仅靠单一学科来构建,必须依靠计算机学科专家、图书情报学科专家以及学科领域专家的通力合作与协同攻关。图书情报机构的职责是对各类信息资源进行搜集、积累、传递、保存和管理,这是历史赋予的使命。数字图书馆是基于图书情报机构之上的一种数字化环境,对各类资源进行基于语义的知识组织,正是数字图书馆的研究对象和研究内容,经历了20多年,历经三个发展阶段的数字图书馆,是知识网格中具有应用价值的东西。
要充分认识知识网格研究的长期性和艰巨性。从整体上看,网格与语义网技术还在发展,融合两者的知识网格还处在研究探索阶段,离现实及目标还有很大差距。知识网格不是在短期内就能实现的,其发展需要一个较长的时间。然而,知识网格无疑给信息资源管理和数字图书馆带来新的理念与方法,为信息资源的知识组织提供了一个很好的方案,需要我们进行认真而深入的研究。