[摘要]古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到了影响。现将常用于处理现代文本的N元纽法移植到古籍文本中进行实义词提取,试验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。试验从古籍文本《齐民要术》中提取普通语词和专有名词(包括书名、地名、人名官职名)3000多个,表明此试验方案基本可行。
[关键词]古籍数字化 N-gram 自动分词 实义词
[分类号]G252.7
1 引 言
“古籍”是“古书”的雅称,国家标准的《古籍著录规则》给的定义主要是指1912年以前在中国书写或印刷的、具有中国古典装订形式的书籍,往往具有重要的史料价值和文化价值。由于古籍文献跨国界、跨地区收藏,所藏种类、数量,版本、特色各有不同,各馆藏又有“重藏轻用”偏向,严重地影响了古籍文献的利用与开发。
为方便查找和利用古籍文献,在20世纪80年代初台湾“中央”图书馆率先开始了将馆藏善本制成机读目录的工作。如今古籍数字化工作已取得一定的成果,如《史记》全文检索系统、《红楼梦》全文数据库索引、《论语》逐字索引等等。目前这些古籍文献的标引和检索只限于篇、章、目录和单汉字层次,本文尝试从古籍文本的表征及内容特征出发,抽取实义词(包打普通语调和书名人名等专有名词),为实现古籍文本标引和检索从单汉字层次向词、概念层次的过渡作前期准备。
2 从古籍文本中抽词的意义
本试验抽取的实义词可用于以下儿个方面:
用来编制或完善各种词表。如完善各种书名目录、地名表、人名表、官职名表、作物名表等,对语词规范化可用来编制古籍叙词表(叙词表是将相近或相似意义的词排在一起成簇的名册),从而用于标引古籍文献。因此本试验对于构建和完善古籍词典、叙词表,标引古籍文献都有着重要的意义。
用来编制索引。索引的功能首先是揭示文献内容和标引文献地址,进而获取所需文献;功能之二是获取利用知识所体现出的选题导向功能。通过索引还可以了解到某些章节的重要程度。
应用于古籍全文检索系统、图像检索系统,将现有古籍检索系统逐字匹配的模式改进全基于词的层而,从而提高检索的查全查准率。
用来编纂整理古籍文献,如资料汇编类,可以将关于某一方面的文献集中在一起,便于查阅专题文献。
3 古籍文本自动抽词处理步骤
本文选择《齐民要术》一书作为试验文本,采取计算机辅助切词,词频统计,并结合停用词词典和抽词词典提取出候选词汇,然后进一步采用机器剔除过滤操作,最后进行人工判别处理,从而得出一批实义词和专有名词,具体流程见图1。研究重点在于试验现代文本中常用的分词方法、词频统计方法和词条过滤模式转嫁至古籍文本的方案的可行性。
3.1 对文档进行预处理
将《齐民要术》一书从中国古籍基本数据库上下载并全部转换成文本形式,进行繁简转换,统一全半角,提高切词的速度和准确度。
3.2 自动切词,词频统计
《齐民要术》一书共有10万多字,本试验将其分成多个文本文件,以便提高分词速度。接着用N-gram算法对文本文件进行切分并统计词频(根据汉语成词的规律,古籍中普通语词词长一般在1-3字左右,书名等专有名词为3-6字,故本试验系统中N取值为6),结果保存在“切分词表”中。例如:“卫诗曰山有蓁”(此字串串长为6,则最大为6字字串),切分后得到的字符串称之n(n=1。2…6)元组:
1元组:卫(6)/诗(62),曰(1173)/山(130)/有(658)/蓁(2)
2元组:卫诗(5),诗曰(24)/曰山(4),山有(16)/有蓁(1)
6元组:卫诗曰山有蓁(1)
其中,括号内的数字为该字符串在文本中出现的频次。
文档经过预处理以后,《齐民要术》一书共切分出428 731个词条。
3.3 利用词典过滤筛选
对文本N元切分后,利用二分查找算法将“切分词表”中的字符串分别与抽词词典(包括书名词典、地名词典、人名官职名词典)和排除词词典(虚词、数词、量词、限定词组成的停用词典)进行匹配,将“切分词表”中的书名、人名和官职名、地名及对应的词频分别读入“书名表”、“人名官职名表”、“地名表”中,将含停用词典中字或词的记录读人“停用词表”中,其余记录则读入“备选词串表”中。
3.3.1 单独抽出书名、人名、官职名、地名假定有现成的书名词典、地名词典、人名官职名词典作为抽词词典,将“切分词表”中的专有名词提取出来并读人对应的“书名表”、“人名官职名表”、“地名表”中,不再参与以下词条过滤的操作,从而减少数据比较的次数。如上例2元组中的“卫诗”,作为书名直接被读入“书名表”。利用抽词词典从“切分词表”中提取书名199个,人名和官职名86个,地名110个,共计395个。
3.3.2 过滤含功能词的词条功能词即构词能力低,在文本中成词可能性小,而出现频率较高的词,一般为以下几种词型:介词(于、乎、将)、代词(尔、彼)、疑问词(谁、孰)、副词(甚、少)、连词(而、虽)、语气词(哉、矣)、限定词(这、某)、数词(一、十)、标点及不可识别的词。用这些功能字构建停用词典,将“切分词表”中所含有这些功能字的n元组全部过滤掉,共过滤掉此类词汇324 000条,占n元组的75.6%,也即是将词条过滤掉3/4,大大减少了后面手工判别的工作量。
将地名、人名官职名、书名分别列成表,可编制成专有名词索引;含停用词典中字词的字符串基本都没实义,所以它所在的记录被读入“停用词表”中并直接被过滤掉,其余记录记入“备选词串表”作为候选词。
上例1-6元组经上述两步处理后,1元组中的“诗(62)”和2元组中的“卫诗(5)”因是抽词词典中的书名被读入“书名表”1元组中的“卫(6)”“山(130)”“蓁(2)”是实词,记录在“备选词串表”中;其余n元组的字串因含停用词词典中的词而被诙入“停用词表”,直接被过滤掉。
3.4 去除4、5、6元组
经过切词、词典过滤后,《齐民要术》一书得到的n元组情况统计,如表1所示,
采用无词典分词法,得到的非真实词条是非常多的(约占92.29%),是真实词条的12倍左右。笔者将切分出的n元组(n=1,2……6)进行比较分析后发现:当n>4时,切出的字符串除书名、地名、人名官职名外基本上很少有具体实义的词。所以将“备选词串表”中的4、5、6元组去除,其他记录存入“词串合并表”(共81 222条),参与下文过滤。
3.5 字串类型分析 将n元组合并后,字串形式各异,大致可将这些字串分为以下几种类型:
类型1:利用抽词词典已经提出的人名官职名、地名、书名。如“搜粟都尉”、“尔雅”,“建安郡”等,这些词汇可直接作为专有名词应用于编制索引、词典等。
类型2:词段组合型。词段组合指的是在得到一个长词条的同时,会得到很多相应不表达任何意义或不能表达完整词义的短词条组合。比如:“杂阴”、“西京”分别是“杂阴阳书”、“西京杂记”被割裂的一部分,词义被隔裂,无法表达原有的意义。这类词条与其相应的真实词条的词频相同或相近。
类型3:用停用词典未能过滤的其他停用词汇。由于上述过滤工作使用的是常用停用词词典,不是很完善,因此还剩下大量虚词、数词、连词、介词、副词、量词、形容词等构成的词汇,这些词的功能都不大,没多少实际意义,如“千枚”、“两边”等。
类型4:人名、地名、姓、国别、官职名、别名等。因为使用的抽词词典不是很齐全完善,有些人名官职名等专有名词还保留着,如:“赵”、“汉武帝”、“神农”等。
类型5:不相干组合型。由两个或多个被割裂的字串组成的字符串,如“芋大”、“皮胡芹”,这类词条由于是割裂的字串偶然连在一起而被算法提取出来,没有实际意义,词频往往很低,绝大多数词频为1,少数词频为2以上。
类型6:横组合词汇。由两个或多个词组合成的词组。如“拔去”、“刘欣期交州记”、“橘皮胡芹小蒜”。这类词基本上都属4元组及以上的字串,其子串包含了一部分新词。
类型7:不可识别的字词。如“易”、“音感竹”、“力口反”,古籍文献原文以繁体存在,在转化为电子文档时由于繁简词库的限制,有许多繁体字不能识别,同时将N元组保存在Access数据库时也有部分字词识别不了,用“?”代替或以日韩文形式存在,这些字词都需删除。
3.6 简单计算过滤词条及人工判别选词
对于类型1的专有名词可直接应用不必参与以下的过滤操作;
类型5中不相干组合型的词串(低频次),可根据它们的频率排除掉频率为1的,共69841条,占“词串合并表”中81222条记录的86%,可见此操作处理了“词串合并表”中一半以上的无用数据,大大减少了后面手工操作的工作量;
类型7中不可识别的字词因不可将其还原成繁体字或转化成可识别的词,所以将“词串合并表”中的字段term按升序或降序排列直接将其删除(共230条),余下11 151条记录参与下列计算过程的筛选。
3.6.1 N元重叠的等频剔除对于类型2的词段组合型词条,从余下n元组集合中发现大部分作物名、动物名满足这个规律:若n元组片断x包含在更长的n元组作物名动物名Y中,freq(X)=freq(Y)。因此,利用此规律运用算法,将n元组x删除,如:x“槟15”Y“槟榔15",x“茱17”Y“茱萸17”freq(X)=freq(Y),则将x剔除。此法过滤掉1024条记录,保留的基本都是作物名或动物名。例如:茱(17),茱萸(17);摩(8),愿鹿(8)。其中,括号内的数字是词频。
利用此规律时,发现过滤掉的1024条记录相对于11151个候选词条,只占9%的比例,根据现代文本利用N-gram算法提取未登录词的文章分析,笔者认为这么低的比例是由于文本数据量不够大所致。统计学的一般规律是统计的数据量越多得出的结果才会越明显,10万字的文本对于机器自动分词是已足够,但对于词频统计规律所需的数据量还是不足,不能明显呈现出优势,这是本试验所选文本不足之处。
3.6.2 计算词的置信度进行词条过滤此时剩下的10 127条记录采用傅赛香基于统计的无词典分词模型中计算词的置信度来过滤候选集。定义和方法如下:
已知词条w1的出现频率为sup(w1),词条w2的频次为sup(w2),词条w=w1+w2的频次为sup(w),则词条w1相对于词条w来说,词的置信度为
eonf(w1/w)=(sup(w1)-sup(w))/sup(w1)
同样可知词条w2相对于词条w的置信度。
定理:如果词条w1相对于词条w的置信度小于阈值a(a>0),则认为词条w是真实词条的可能性比w1大,从候选集中去掉w1词条;如果词条w1相对于词条w的置信度大于阖值β(β>0),则认为词条w1是真实词条的可能性比w大,从候选集中去掉w词条;如果词条w1相对于词条w的置信度大于阈值a且小于阖值β,则保留两个词条。
利用此词条过滤模式对试验进行处理时,发现阈值a和β的选择对处理的结果有很大的影响,试验了三种阈值不同的取值方法,程序执行的结果如下:
笔者比较了阖值a和β取以上不同值时的处理结果集,将term字段按拼音升序排列,从表头各取样本100条记录,然后将各样本进行人工判别选择语词,得出:
a=0.1,β=0.9时,100条记录样本过滤出实义词32个(占样本集的32%);
a=0.2,β=0.8时,100条记录样本中过滤出30个实义词(占样本集的30%);
a=0.3,β=0.7时,样本中筛选出24个语词(占样本集的24%)。
对这三个样本进行手工处理筛选语词需要有统一的标准,也即参照系,本试验是用前一步等频过滤的结果10 127条记录中,选取前300条进行人工操作挑出的语词,作为对100条记录样本处理的参照系统。
根据以上简单抽样测试结果,本试验选择阈值a=0.1,β=0.9计算词的置信度来过滤词条。虽然此时提取的语词相对多而且准确率相对高些,但还是有一些频率较高的实义词被过滤掉了,因此阈值的选取,要通过更多次的试验比较才会保证处理结果的准确度,降低剔除过程中的风险。
3.6.3 手工判别对计算过滤处理后剩余的5730条候选记录进行人工判别筛选,得出实义词2747个,图2列出了部分语词及其频次的样例。从图中可以看出,古籍文本中提取出的实义词基本上都是名词,且多为动植物名称。另外,由于书名、地名等抽词词典并不完善,在利用二分查找算法匹配时并不能把文本中出现的所有书名、地名、人名和官职名等专有名词单独抽出,如图2中出现的“陈思王”、“汉武帝”、“南越”、“兖州”4个词不仅是实义词,而且是抽词词典没有包含的专有名词,由此看来,利用N-gram算法还可以提取未登录专有名词,这些未登录专有名词可用来完善对应的书名抽词词典、地名抽词词典、人名官职名抽词词典。
本试验系统利用抽词词典从文本中抽取了395个专有名词,人工判别筛选出2747个实义词,因此利用n元切分法共识别出3142个语词(包括实义词、人名、书名、官职名、地名等)。本试验提取的普通语词、书名、地名、人名、官职名可用于编制各种索引,方便查找原文;同时,也可用于编制或完善古籍专有名词表甚至叙词表。
4 结语
本文是将常用于处理现代文本的n-gram算法、自动分词、词频统计、n元重叠、词条过滤等方法移植到古籍文本中提取实义词方案的尝试。试验结果表明,此方案基本可行,能从古籍文本中提取出大量明确表达文献主题内容的单义词。本文所用的切词方法是全切分,因此,所有可能的词汇组合都被涵盖,语词的提取相对全面完整;采用机器辅助操作,包括自动分词,词频统计及利用词典和简单计算过滤词条,大大减轻了手工操作的工作量,也尽量减少因人为参与所带来的主观因素对试验结果的影响,保证统计数据的客观性。
但在剔除n元重叠时,由于所选的文本(10万字左右)数据量不够大,所以得出的统计规律不是非常明显,这在一定程度上也影响了试验结果,所以此试验需要选择数据量更大的试验文本,但是试验本身采用的是全切分方法,容易导致n元组数据量过大,这与利用统计规律剔除n元重叠所需庞大数据量的条件对立,因此试验文本的选择很重要。另外,在计算词置信度的词条过滤模式中,阈值是由多次试验确定的,因此它对语词的筛选有很大的影响,要想提高筛选的准确度和齐全性,还需多次取值试验并改进阈值的确定方法。
在客观条件上,由于所选古籍试验文本中有很多繁体字词转化成文本文件,导入Access数据库过程中识别不了,因此有一部分重要语词无法提出来。同时,本试验的假定条件是有现成的专有名词表,而目前还没有一部非常完善齐全的古籍专有名词表供使用,而古籍叙词表更是没有出现,所以希望能有更多单位或个人投入力量,编制或完善古籍专有名词表甚至叙词表,这将会带动更多学者参与对古籍文献的研究,从而推动古籍数字化的发展。