关键词语料库_基于分类标注语料库的关键词标引知识自动获取

  〔摘要〕基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。
  〔关键词〕关键词标引 分类语料库 主题度
  〔分类号〕G254.361 TP391.1
  
  Knowledge Repository Acquire for Keywords Auto-Indexing System Based on Labeled and Classed Corpus
  Liu Hua
  College of Chinese Language and Culture of Jinan University, Guangzhou510610
  〔Abstract〕From a classed large-scale corpus, extracts keywords labeled on web pages by indexing specialist and formed a keywords list; Referring to the two characteristics of keywords: fields non-even and exists range edge, brought up and calculated the words" subject degree by statistical model.Subject degree expresses text content" s subject concept. Based on subject degree, constructed a key words auto-indexing system.
  〔Keywords〕keywords indexing classed corpus subject degree
  
  1关键词标引知识
  
  关键词自动标引根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词。关键词自动标引可分为两种:基于知识的和基于统计的。基于知识的关键词标引通常见于图书馆文献标引领域,主要基于已有的标引资源,如《汉语主题词语表》、《中国分类词语表》及其复分表以及各专科性主题标引手册等,利用文献标引规则,由专家手工标引。基于统计的主题词标引主要借助于数据挖掘和机器学习的统计算法实现,如马尔可夫统计模型和互信息、最大熵模型等。
  关键词自动标引的任务包括:①文档表示为怎样的词语集合作为关键词候选项 ;②依据什么标准选出候选项作为关键词。
  因此,关键词自动标引需要的领域知识主要包括:关键词候选项、表示词语主题象征性能力的某种强度或权重。
  本文基于大规模层级分类标注语料库,抽取网页上专家已经标引的关键词形成超大词语表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。
  
  2基于语料库的关键词标注知识获取
  
  2.1专家标引的网页关键词获取
  在构建文本分类和主题词标引系统时,我们建立了一个超大规模的语料库。语料来自几个门户网站,时间跨度为3年(2003-2005),共约60万个网页,6亿字。对60万个网页提取出详细的语料信息,如标题、栏目、关键词、时间、同主题链接标题和正文。
  同时,我们通过对4个门户网站、3个搜索引擎和13个主流报纸网站的栏目分类体系和传统分类体系的对比研究,使用同名栏目去重、相似栏目合并、异名同类栏目映射、子类栏目提炼上升等手段,最终在总结各大网站栏目共性的基础上,重点考虑“主题划分”、“生活优先”的原则,归纳出一个网页分类用类目体系。该体系分15个大类,层级类别最深为4级,如“科技_数码_视频_数字电视”,类目总共244个。
  将语料库的网页栏目和已建立的网页分类体系进行映射,最终,形成以XML格式存储的详细标注语料属性的层级分类语料库。
  语料库信息汇总见表1(仅列举大类):
  
  在网页信息提取时,我们发现很多网页已经人工标引了关键词。关键词往往标引在标题下面,是那些具有文本主题表示功能的词语。关键词是对一个网页的主题进行描述的关键性词语,一般一个网页约两三个关键词。例如一篇题为《中国民航总局解禁“红眼航班” 消费者喜闻乐见》的网页,其关键词为“民航、红眼航班”。这些关键词都是网站主题标引专家长期积累下来的集体智慧,是我们基于知识的标引系统非常珍贵的专家资源,不仅为我们的关键词标引词表提供了来源,也为我们进行的文本分类和主题词标引提供了很好的训练和测试语料。
  我们在上文建立的超大规模分类语料库中抽取出其中已标注的关键词,总共获得229 237个词条(去重后),按网页的主题属性存储进词表,形成15个大类的领域关键词词表和244个小类的领域关键词词表。
  表2是科技、经济、艺术、汽车、体育、旅游、教育抽取的7类关键词举例。
  2.2关键词主题度计算
  在情报学上,关键词是指在论文标题、摘要或正文中,用以标识和表达文档主题概念的词语。关键词的主要特征是主题性:关键词揭示的是文档最核心的内容,关键词能高度概括和代表整个文档的基本内容,是文档的灵魂。
  戴璞认为“关键词表达主题概念时能准确地表达事物的本质属性”;王明燕认为“关键词是用以表示文章主题、内容、信息、款目的单词或术语,是反映文章内容的名词性术语,对文章内容具有实质性意义的词或词组,是表达文献主题概念的自然语言词汇”;杨一琼认为关键词的主要特征是“主题性:关键词揭示的是学术论文最核心的内容,是文章最基本的学术思想、技术方法的提炼与概括,具有鲜明的主题色彩,读者只要分析一下关键词,就可大致研判论文的学科类别、主题内容及可能提供的信息量”。
  因此,我们引入了主题度概念来表示一个词语对文档主题概念的表征程度。主题度,是指在文本表示时,将文本的主题特征(例如主题概念、核心内容、中心思想等)鲜明地表示出来的程度。例如,常见的虚词性成分(如“总而言之”)的文本主题表示功能较弱,主题度弱;而一些领域性强的体词性成分(如“封闭式基金”)则文本主题表示功能较强,主题度强。
  标引的关键词应该主题度高,这就需要在权重计算时不仅降低常用词,而且应该凸显主题特征明显的词语。通常的关键词标引特别是基于词串统计的关键词标引方法,最大的问题在于流于简单的词频统计,往往过分突出了词频的影响。我们在构建的大规模分类语料库中进行词语的主题度训练,获得了每一词语的主题度。
  戈夫曼提出,文献词汇的分布由高频转向低频时,可能存在着一个邻界域,由于高频词多为功能词,低频词在很低程度上是作者用词特点的反映,只有处于邻界域内的词才真正表达文献的主题内容,这些词经过停用词表的删除最适合做标引词。对已经专家标引的关键词作进一步分析,我们发现关键词通常偏向于专业领域里的术语性较强的词语,大多就是术语。术语是专业领域中概念的语言指称,其主要特征也是主题性,关键词的主题度就是术语主题性特征的反映。
  因此,我们认为关键词主题度的本质在于其领域分布的不均匀性,关键词与领域类别密切相关,是某一领域中具有一定频次的(邻界域内)区别于其他领域内容特征的体词性成分。从表2例举的关键词中,我们也可以发现这点。
  基于关键词的领域不均匀性(主题表征性)和邻界域的考虑,我们为关键词的主题度获取设计了形式化的计算模型(陈克利,2003):
  
  方差是体现数据分布是否均匀的很好的数学指标,但从方差公式中可以看出,方差大小又受到词频大小的影响,为了消除此影响(因为词频因素将通过测试时被标注文档的词频来体现,方差需要的只是训练时词频之间的差异性表示),我们用方差除以该词在各类中词频之和来表示关键词在不同类之间的分布差异性。
  这是对领域性不均匀性(主题表征性)的数学模拟,对关键词邻界域的性质则通过〔log(N(wi)/N)〕2来模拟表示,含义为:总训练语料中出现次数相对较少的关键词其权重相对较高。为削弱两头高低频次的过分影响,拉近高频与低频词语的频率距离,突出频率邻界域中的词语,采用对数后平方的方法进行词语频率的平滑。这就避免了大量高频的功能性虚词(如“的、了、在、我”,等等)和低频的个性化词语(一些非常见的数字字母串、书面语、古语、方言词,如“TODS、残日、禀陈、围嘴儿”)的出现,同时又照顾到中低频的术语词语。当然,关键词在总语料中的出现次数并不能完全说明该词在标引中的重要性,频率相同的关键词在标引中的重要性是不同的:在各类之间分布越均匀,其重要性越小,主题度越低,反之亦然。这就是我们将两者结合起来(相乘)模拟表示主题度的原因。
  词频统计后,进行权重计算,计算公式如下:
  T(wi) = Fw×nZtd(wi)
  其中T(wi)表示词语wi的权重,Fw表示词语w的频率,n>=1,可自由设置,这里n=3。如果某词语,如新的数字字母串(切分时遗留的),不在词语表中,则没有主题度。考虑到许多数字字母串也可能是关键词,如“3721、Windows XP”等,因此权重计算时将其主题度设为350(所有词语表中词语主题度的均值高一点)。
  表3是词语主题度计算后主题度最低的前40个词语。
  
  3基于领域知识的关键词自动标引实现
  
  基于上文获得的领域知识,我们完成了一个关键词自动标引系统[8]。系统针对非学术性的中文文章自动标引关键词。如一篇题为《微软昨反诉欧盟 历史上最大反垄断官司再次升级》的文章,系统处理后,输出标引结果为“微软、欧盟、反垄断”。
  测试集共105个XML文件,其中经济、科技类文档约占一半。测试时,针对几个测试点,两人分别对105个文件进行人工打分,打分时对每一测试点分别打分。然后,对每一测试点计算其平均分,列表如下:
  
  最后,计算各测试点的综合平均得分,约为8.08。
  
  参考文献:
  [1] 刘华.关键词自动标引系统实现.现代图书情报技术,2006(2):88-90.
  [2] 刘华.网页信息抽取及建库系统C#实现.计算机工程,2006,32(16):49-51.
  [3] 叶志清,刘端红,袁庆等.文献信息计算机全文全自动标引方法.情报学报,2003,22(2):169-172.
  [4] 杨文峰,李星.基于PAT-TREE统计语言模型与关键词自动提取.计算机工程与应用,2001,(15):17-20.
  [5] 吴春玉.中文全文检索系统中实现主题词标引思路.情报杂志,2005(1):115-117.
  [6] 李素建.关键词自动标引的最大熵模型应用研究.计算机学报,2004,7(9):1192-1197.
  [7] 陈克利.基于大规模真实文本的平衡语料分析与文本分类方法[C]//孙茂松.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003:540-545.
  [8] 主题词自动标引在线演示地址.[2007-04-25].http://www.省略/class_demo.aspx.
  
  注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”