互联网资源知识本体自动构建实证研究 本体构建

  [摘要]研究一种利用互联网已有资源就可以自动构建互联网资源知识本体的方法,从可以让用户对资源添加自由分类标签的网站标签中筛选出概念,根据标签与资源的关系,设计合理的规则,绘出概念关系网络地图,从概念关系网络地图中总结规律,分析出构建概念之间各种级系的合理规则,编成让计算机理解的网络本体语言自动构建互联网知识本体。根据概念匹配原则,系统软件可以自动套用预给的权威词典解释,也可自动读取百度百科网站相关的概念的解释,套入本体术语解释数据库。
  [关键词]本体 自由分类标签 概念关系结构图 自动构建
  [分类号]G250
  
  1 引言
  
  本体是某一领域共享的、概念化、形式化表示的知识体系,第二代互联网的发展需要大量领域本体作为支撑。目前领域本体主要依赖手工构建,而且只包含非常少的领域概念,需要耗费大量的人力和时间,对于互联网资源知识的本体更是无从构建。新的词汇和概念每天都在出现,概念间的关系也在发生变化,所以互联网资源本体构建一定要利用软件快速构建,自动更新。研究快速地自动构建互联网资源知识本体不但可以节省大量的人力物力,而且是建设语义网的基础。
  
  2 本体自动构建的研究现状
  
  当前,国内外许多研究团体正在致力于本体的自动构建方法的研究。较为成熟和流行的是基于词典的本体半自动构建方案,WordNet和HowNet两部词典都是基于世界知识分析总结后建立的电子词典,其中记录了比较全面的概念词条,通常用来作为构建本体用词典。概念发现过程中进行的模式匹配和概念相似度计算,就是基于词典进行的,对抽取的数据进行净化处理后,将获得一条条名词词组,然后以词典为基础,进行字符串的匹配,从而发现新的概念。同时,词典也是概念间关系发现的基础,根据词典中已有的上下位关系、同义关系进行概念的相似度计算,从而完成本体自动构建过程中的概念匹配过程和确定关系过程。本体术语的定义也是采用词典的解释作为术语定义。
  对于互联网资源知识本体的自动构建,如果按上述利用词典去构建的方法,笔者认为还存在以下问题:①互联网新知识新概念每天都层出不穷,而词典的概念是固定的,有限的,如果靠专家人工去不断完善词典,实际上也不是自动构建;②词典对于概念间的关系描述有限,对于关系的发现还只限于上下位关系和同义关系的发现,而实际应用的本体内存在更多的较复杂的关系”’;③利用词典进行的相关度计算,匹配计算,相似度计算后得出概念关系会存在偏差,这样得出的本体应用起来就会出现难以被人理解的情况;④利用词典自动构建的本体还未能对数据源的领域范围进行判断,这影响本体自动构建的正确率。
  
  3 利用互联网已有资源自动构建互联网资源知识本体
  
  3.1 新观点、新方法
  自由分类可以看作“本体论的新学派”,因为自由分类法可以被看作是一种“社会化的本体,本体的构建不需要再依赖专家,而可以从丰富的用户数据中提取。自由分类要自动构建和丰富本体,其关键是要过滤掉非形式化、不规范的标签,筛选出正确的概念,确定概念之间复杂的层次关系,同义关系和属性关系,并用准确的定义去描述概念。
  
  3.2 确定本体的领域和范围
  只有在可以让用户添加自由分类标签的网站才可以提供这些构成本体的词汇、术语和它们之间的关系。用户添加自由分类标签的类型有:推荐的网站网页资源分类标签;推荐的图书,电影,音乐分类标签;视频分类标签;博客分类标签;论坛分类标签;图片分类标签;百科知识(WIKI)分类标签;开放存取论文分类标签;推荐的新闻分类标签;商品分类标签;威客witkey标签;用户上传分享文档的标签等。虽然自由分类标签并没有覆盖所有的互联网资源类别和资源,但都是用户推荐的,有代表性的。互联网的本体构建只需每个类别资源中的有代表性的,受欢迎的资源去构建就行了。
  
  3.3 列举各领域中重要的术语、概念
  自由分类标签中有许多非分类词标签,设计软件对以下很明显的垃圾标签进行过滤,例如:纯标点符号、纯数字、数字加中文、单个字,等等。过滤后还会剩下不少垃圾标签,由于其字面描述乱七八糟,出现次数很少,因此只要对只出现若干次以下的标签不予统计即可,这样两次过滤后,就得到的比较标准的概念。
  
  
  
  3.4 本体概念的组织
  如果同一资源被用户添加了两个不同的标签(概念),那么就说明这两个概念之间存在部分意义关联,也就是有某部分含义的交叉重叠或者联系。概念之间存在同义词、包含、层次、等级等关系,分析它们所标注过的资源集合的关系就可以分析出概念之间的关系,当两个概念标注同一个资源时,两个概念之间就用一根连接线连接起来,两个概念之间连线越多就说明这两个概念意义越相近,当两个概念标注过的资源集合连线数达到等于较小的概念标注过的资源集合元素总数时,就说明这两个概念集合为同义词关系或直接包含关系。如图1所示:
  图1中的数字94、98、99、101为不同资源的代码,长方形为概念名称,椭圆表示概念包含的资源的集合,概念“图画书”标注过的资源集合和概念“绘本”标注过的资源集合的连接线达到最大限度,说明这两个概念为同义词或者达到完全包含的关系。如果为同义词的,就将它们合并为一个概念;如果为直接包含的,就把包含较少元素的概念作为包含较多元素概念的子目录。如果一系列概念中有互相完全包含关系的,就用不同的括符表示。例如A包含B,B包含C,B包含D,D包含E,那么就用A|B[C,D(E)],表示,而且合并为一个大概念A。
  把每个概念看作一个点,两个概念之间无论有多少条连线。都简化为一条连线,而且连线的大小与原有的连线多少有关,原连线越多就越加粗表示。
  这样就处理后,就可以得出每个概念之间的关系网络地图,从而判断它们之间的层次,等级关系。
  例如,笔者从豆?网(http://www.省略)的数据中选择了120本有关文学的图书和它们被用户添加的自由分类标签进行研究绘图,首先对120本图书标上1到120的编号,这样每个数字就代表一本图书,对只出现三次以下的标签省略掉,这样就去掉了绝大部分非分类词标签,得到较为标准的概念,在每个概念后列出其标注过的图书的编号。
  两概念(标签)之间只有一条连线的(即两个标签只标注了同一本书)就省略,因为只有一条连线不足以说明两个概念之间有包含等级关系,可能只是某用户的偏理解。两概念(标签)之间只有两条以上连线的(即两个标签同时标注了两本以上的书),绘制时两标签简化用一条线连接,原连线越多,简化后的连线就越粗。两个概念集合为同义词关系或直接包含关系的,就把这两个概念紧挨着绘制。这样处理后就得到如图2所示:
  在图2中,可以很容易看出网络图的主干线,分支 线,主干线是一级目录“文学”分别指向二级目录“小说”、“散文”、“诗歌”、“随笔”、“中国文学”、“外国文学”。二级干线有“中国文学”与“散文”、“小说”与“中国文学”、“文学”与“文学评论”、“中国文学”与“诗歌”等,三级干线有“网络小说”与“小说”、“外国文学”与“英国文学”等。
  图2中的两个概念集合紧挨着绘制的“武侠”与“武侠小说”、“儿童文学”与“童话”、“童书”等也确实为同义词关系或直接包含关系。可以看出许多概念是的层次关系是交叉的,网状分布的,绘出的结果非常符合实际,这样就可以用实际数据例子说明这种绘制规则是合理的、正确的。
  对于绘出的概念关系网络结构图,还会发现一些孤岛概念,就是其和其他概念没有任何连线的,经分析,这些概念也是一些不规范的标签,为了得到好的效果,设置系统对这些不规范的标签也过滤掉。
  这只是对120本书的标签网络地图绘制的规则,如果对于10万册书的标签网络地图绘制,笔者认为可以规定对只出N次以下连接线的支线省略掉,不断变化参数,直到得出最好的效果,并按照每个标签之间的连接次数从多到少,逐级排列分为一级干线、二级干线、……N级干线。
  不同类型的资源(例如电影、博客、音乐、论坛、百科知识等)的标签与资源关系构建的概念关系网络地图特征不同,所以要根据其特征具体分析,制定不同的确定概念之间属性的合理方法。
  所以笔者又选择百度百科(http://baikebaidu.com)词条为研究对象进行实证研究,选取了100个有关天文、地理的词条,每个词条的解释后面都注明该词条的属于的几个开放分类(这些开放分类实际上就是筛选后的用户对该词条添加的自由分类标签)。同上述规则,首先对100个词条标上1到100的编号,这样每个数字就代表一个词条,对只出现三次以下的开放分类标签省略掉,包含相同序号词条的两个分类标签之间就添加一条连线,两个分类标签之间连线少于两条的就省略掉,两个分类标签之间无论有多少条连线都简化为一条,而且连线的大小与原有的连线多少有关,原连线越多就越加粗表示。如果有孤岛概念(就是和其他概念没有任何连线的)也筛选掉,这样就得到如图3所示:
  图3中,可以看出3个大的互相关联的体系分别是地理、天文和自然科学,其中自然科学处于它们的中间。概念层次分明,连线越粗就说明两概念的细小知识单元重合越多,越处于众多概念的上层架构,椭圆紧挨着长方形绘制的就是长方形概念集合里的词条元素完全包含椭圆行概念集合里的词条元素(即说明长方形概念的细小知识单元完全包含椭圆概念的所有细小知识单元),即长方形概念是椭圆形概念的上级。这样就进一步用实际例子证明上述规则构建概念的层次关系的正确性。而且这样得出的本体结构简洁、直观,概念之间的关系更为明了。
  在图3中,例如对于“地理”这个概念,椭圆形的词条“地域”、区域”、“地球科学”、“自然景观”都是“地理”中的一个属性或特征,与“地理”相连的长方形词条“平原”、“海洋”、“草原”、“地质”、“地形”等是地理知识中要讲述的某个方面概念。
  “地质学”可分别属于“地理”、“地质”、“自然科学”这三个目录下。又例如“行星”和“八大行星”这两个词条都是属于“太阳系”的部件。在判别究竟“宇宙”和“太阳系”这两个概念究竟哪个是上级时,看到“宇宙”是通过一条很粗的干线与“天文”中心概念连接的,而“太阳系”是没有直接与中心概念“天文”连接,而且与周边概念的连接线都很细,所以“宇宙”肯定是“太阳系”的上级了。
  可以看出图2的概念关系结构比图3的概念关系结构更加合理,因为图2的资源是图书,图3的资源是词条(词条本身就可能是一个分类词,给分类词添加分类标签就会存在不是很贴切的情况,而且会出现概念描述重复)。如果资源是视频、歌曲、论文、博客等,那么绘出的概念关系结构图的规律就肯定不完全相同,分析结构图的方法就肯定有差别,所以要根据实际绘出结构图后,用人工分析,总结规律,设计算法,再按照规律去编程,利用软件自动分析,从而更加合理地自动定义本体中概念与概念的关系,定义概念的属性。
  
  3.5 定义本体中概念与概念的关系,定义概念的属性
  用上述规则绘出本体概念关系网络地图后,就可以根据概念关系地图判断出概念之间的各种层次关系,同义词关系,包含关系及属性关系。在图2中,根据中心度的计算以及以与周围的概念关联最多,关联线最粗的判断,很容易看出“文学”是处于最高层的一级概念。“小说”、“散文”、“诗歌”、“随笔”从体裁角度描述的二级概念分布在起周围。“中国文学”、“外国文学”从地域范围描述的二级概念也直接在“文学”这个一级概念之下,而且和“小说”、“散文”、“诗歌”、“随笔”都有交叉联系,“英国文学”、“美国文学”、“日本文学”、“法国文学”和“外国文学”的直接连线都较粗,所以可以判断“英国文学”、“美国文学”、“日本文学”、“法国文学”首先属于“外国文学”这个二级概念,先组成一个“外国文学”的凝聚子群。又例如在图2中,“武侠”被“武侠小说”完全包含,是“武侠小说”的一个属性。
  
  3.6 本体术语定义
  根据概念关键词匹配原则,系统有接口可以引入权威词典的解释,也有接口引入百度百科(维基百科)对相应概念的解释,这就保证了不断新出的概念都能套用到现成的解释。
  
  3.7 对本体编码,形式化
  选用OWL本体描述语言对上述建立的互联网知识本体进行编码、形式化。相比其他语言,OWL有更多的机制来表术语义,更重要的是它是由W3C推荐的,用它来描述本体具有国际通用性,适合互联网知识本体的构建。在本体编码过程中选择Prot~g6作为本体建模工具,通过Protege,可以很方便地将其转换为OWL语言。
  
  4 实现的关键技术与软件示例
  
  4.1 关键技术
  系统有接口与可以让用户添加分类标签的网站对接,直接导入以记事本形式记录的资源和标签数据,有接口与权威词典、百度百科的数据库对接,直接导入概念的解释和实例,并储存在系统相对应的本体术语数据库中。
  系统根据筛选后的标签,按矩阵分析方法得出概念之间的完全包含关系,被包含概念的都列在相应概念后面的括号里,如果有多个概念多重包含则用多重括号表示,然后分析不同概念之间的连接线,并按连接线的多少绘出概念之间的直线大小。软件自动汇出的概念关系网络图中,概念的位置可以随鼠标拖动,以求达到清晰的网络图。
  概念关系网络地图涉及的数据和规则要让人通过观察、总结、理解后,再编成让计算机理解的网络本体语言。
  
  4.2 软件处理示例
  从豆?网给的8万册图书书名,每本书标注的标 签数据分析来看,虽然每本书的标签十分凌乱。有很多不规范的非概念性标签,但正是由于它们十分不规范,所以出现次数都非常少,只需要对出现50次以下的标签删除,刘,一些很明显的垃圾标签(例如纯数字标签、中英文组合的标签,纯标点符号的标签等)删除即可得到比较标准的概念。根据上述标签和资源的关联规则绘制的概念关系网络图,如果概念之间连线少于40次的就省略掉,这样就可以过滤掉由于个别用户偏理解的而造成的概念关联。然后再删除一些孤岛概念(和其他概念没有任何连线的概念),这样就基本可以从凌乱的标签中筛选到标准的概念和绘出层次分明的概念关系网络地图。
  课题组开发的软件可以直接导入保存在,txt文件的资源名称及其标签数据,并进行筛选、合并、计算,自动绘制概念关系网络地图,而且概念在图中的位置可以随鼠标拖动,这样就保证各个关联紧密的概念放在图中的同一区域,无任何关联的概念放在图中不同的区域。软件的一些操作界面见图4-图7:
  例如图5,按1、2步骤打开后缀为.txt的数据文件,如果对数据满意,则不用任何处理,直接导入库即可。如果不满意还可以对数据按下面的步骤进行相应的处理:①按5步骤可删除选中的书名和标签;②按6步骤合并选中的数据;③按7步骤将标签里的空格自动删除,便于软件分析标签数据;④按9步骤查出相似度达到一定程度(可设参数)的书目数据,然后就可以按6合并;⑤按10步骤可以自动合并完全相同的书目数据;⑥按11步骤就可以先过滤掉很明显的垃圾标签,例如纯数字,纯标点符号,单个字等;⑦按12步骤将新文件的数据增加入库,不清除原有的数据;⑧按13步骤将新文件的数据入库,人库同时就清除原有的数据;⑨按14步骤还可以修改标签数据。
  在图6中,可分别用关键词进行书名检索和标签检索,并分别显示标注这些书的标签或标签标注了什么书。
  在图7中,可进行标签按出现次数(M次)过滤,得到标准概念,可按标签之间连接线出现次数(N次)过滤,过滤掉由于用户的偏理解而造成的概念关联。然后进行矩阵分析标签之间的完全包含关系。在图中对角线的数字就是每个标签本身包含的资源总数量,每个标签与其他标签包含相同资源的数量就列在两个标签行、列交叉的空格处,这样就很容易分析出它们是否完全包含,例如在图7中,美国文学包含的资源总数是4,外国文学与美国文学包含相同的资源总数也是4,而且外国文学包含的资源总数量是27,所以外国文学完全包含美国文学。
  把完全包含的概念分别用小括号、中括号、大括号层层表示它们的不同层次的完全包含关系,而且把最大的外层看作一个点去绘制概念关系网络地图。外国文学完全包含美国文学,就表示为外国文学(美国文学),同放于一个长方形内。如图8所示:
  根据初步的实践检验,只要通过人工观察不同资源标签构建的概念关系网络地图特征,制定出合理的规则,那么根据不同规则编写的程序自动构建的本体是合理的。