文献内容特征_系列报告的文献研究:枢架内容研究和词频分新

  [摘要]主要采用框架内容研究扣词频分析方法对2000-2008年《中国军力报告》系列报告进行文献研究,其中词频分析主要采用WordSmith分析软件对该系列报告的词频统计、用词模式和关键词变化趋势进行研究,以此考察图情方法在系列报告文献研究中的应用情况,并对国际关系领域进行情报学意义的研究和探讨,对专家、媒体的观点与报告进行情报学价值的补充。
  [关键词]系列报告框架内容词频分析
  [分类号]G350
  
  在许多领域中,国家政府、机构团体等经常会发表一些年度系列报告,如中国政府发布的年度《中国国防白皮书》、美国国防部发表的年度《中国军力报告》等,对于这类系列报告的研究通常是由相关领域的专家学者研读具体报告内容,根据他们自身的学科知识和经验观点对报告内容进行定性判断、各抒己见,这类研究根据各个专家学者的学识背景、政治立场、生活经历等情况的不同,所阐述的观点应该说具有一定的主观性,但仍然是目前研究的主流方式。
  与此同时,由于数字化文本的普及应用和相关工具的逐步成熟,对文本内容的进一步定量分析研究已经成为当前的热门。笔者认为,对单篇文章的定量分析往往会因为参照物的缺失而难以立论,在这方面,系列报告可能恰恰是一个突破口,因为一般而言,系列报告无论在格式还是用语上都属于比较严格意义上的同类文献,因此对系列报告进行的各种定量分析实验,可能会比其他文献在系统性方面略胜一筹。
  本文以《中国军力报告》系列报告作为研究样本,尝试采用图情领域的方法,对系列报告进行定量为主、定性为辅的文献研究。
  
  1 《中国军力报告》简介与研究目的
  
  1.1《中国军力报告》简介
  2000年,美国国会通过国防授权法案,其中要求美国国防部长必须每年就中华人民共和国当前与未来的军事战略递交报告,内容包括人民解放军目前及未来20年间军事技术的发展走向,以及中国大战略、安全战略、军事战略、军事组织与作战概念的要旨和可能的发展。由此,每年一份的《中国军力报告》诞生了,这份美国国防部递交国会的年度例行报告,除2001年因总统换届而取消外,每年都会发布,到2008年一共出版了8份。
  
  1.2研究背景与目的
  本文试图采用图情领域的分析方法,尝试对系列报告进行分析研究,采用的分析样本是美国国防部公开发表的《中国军力报告》系列报告。本文的研究基础来源于国家社会科学基金项目“美国精英对华研究的信息源分析”,该项目主要研究美国精英在对华研究过程中撰写著作、报告等文字性资料时参考的信息源情况,课题研究对象选取了10本图书、51份报告和50份期刊论文,研究这些文献的引用情况。经过统计,样本总计文献类引文数量超过16 000条,而在这些被引文献中,由美国国防部发表的《中国军力报告》系列报告出现频次居首位,由此可见,该系列报告在美国精英进行对华研究过程中,起到了非常重要的作用,是最主要的信息来源之一。
  由此,本文将美国国防部2000年至2008年公开的8份《中国军力报告》作为独立样本进行研究,从图情方法角度考察该份系列报告的重点内容和变化趋势以及美国精英对华研究主要信息源的一些特点。
  
  2 系列报告的框架内容研究分析方法
  
  由于系列报告与其他类型文献相比具有周期性、连续性,各年度报告之间有时间和内容上的承接关系,因此在报告关注主题和具体内容上也存在着许多关联之处,分析系列报告的框架结构,可以从总体上考察各年度报告的内容变化发展,了解报告出版和撰写者的主要目的与内容重点,同时又不必逐字逐句研读所有报告的具体内容。
  因此,本文提出一种系列报告的框架内容研究分析方法,从总体上研究系列报告的框架体系内容,可以较为有效地在短时间内有重点的了解这些系列报告的核心内容,挖掘系列报告重点内容的变化趋势。
  研究系列报告的框架内容最直接有效的方法就是分析对比报告的主要章节标题内容。章节标题是对报告各个段落部分主要内容的高度浓缩和概括,从时间角度纵向对比研究每份报告章节标题的内容变化,可以从总体上发现各时期报告关注的主题变化和研究重点,同时考察其今后的发展趋势与规律。
  
  
  
  以《中国军力报告》系列报告为例,对报告的一级章节标题的文字内容进行分析对比,由表1可以发现,报告写作框架格式可以分为两个阶段,第一阶段是从2000年到2004年,报告逐步形成规范格式;第二阶段从2005年至今,报告按照固定格式撰写。2005年与2006年的报告一级章节标题完全相同,2006年与2007年相比仅仅在第四、第五章顺序上改换了一下,其他内容没有改变。2007和2008年报告相比,后者仅在最后增加了一个特别专题章节,其他一级章节标题也是完全一致。
  从报告框架的章节内容也可以看出历年报告主要关注内容。首先,中国军事战略和台海安全问题一直是中国军力报告关注的重点,每份报告都有章节论述。另外,中国军事现代化的发展也引起的美国国防部的关注。从2002年开始,中国军事现代化一直有独立章节进行介绍。
  由上述分析发现军力报告已经按照固定格式撰写,说明《中国军力报告》在整体内容上已经定下了基本框架,以此还可以判断今后《中国军力报告》的主要撰写框架内容。在中美关系、中国军事战略未发生重大改变的前提下,通过框架内容分析,可以推测2009年度《中国军力报告》依旧会采用已经形成的框架结构。
  值得一提的是,在2008年12月底完成的国家社会科学基金项目“美国精英对华研究的信息源分析”中的“《中国军力报告》系列报告研究”专题报告,也通过采用框架内容分析方法得出过以下结论:“在报告的写作班子和美国政府对华战略没有发生重大改变的情况下,可以大胆判断2009年的《中国军力报告》将仍然沿用之前已经形成的写作框架体系,改变之处可能就是像2008年版那样对于某一主题做一特别专题研究。”而在2009年3月25日,美国国防部正式公布了2009年版《中国军力报告》的主要框架内容正是如此,其主要框架仅将第一章节与第六章节位置互换,名称虽改为“每年更新”,但二级标题内容仍然是关于“中国的主要发展”,并且也继续保留特别章节内容,而其他章节标题没有改变。由此,系列报告的框架内容分析结果也得到了印证。同样的框架内容分析方法也可以应用于其他各个领域的系列报告。3词频分析方法考察系列报告:关键词、用词模式和变化趋势一
  词频分析方法的词频统计、关键词分析经常被用于描述某学科领域的研究状况,进而揭示该领域的研究热点和发展趋势。本文也采用WordSmith分析软件的几个词频分析功能来考察《中国军力报告》系列报告的关键词、用词模式和变化趋势。
  
  3.1 总体词频统计分析
  首先采用WordSmith词频分析软件对《中国军力 报告》系列的文献全文内容进行词频统计,研究其用词规律,考察中国军力报告关注重点。通过词频分析软件的Wordlist功能,统计出历年报告共用到近7 500个词汇以及每个词汇的词频数量并按照词频高低排列。表2列出了2000-2008年全部报告内容去部分虚词后排名前50位的统计结果:
  由表2的词频列表可以考察《中国军力报告》的主要关注内容。“China"和"Military”分别是排序最高的两位,随后排名前十中“PLA(第4位),Defense(第5位),Force(第7位),Forces(第9位)”这些表明军事防御和军事力量的词汇占据了主要位置,理所当然的,美国国防部出台《中国军力报告》研究的主要对象就是中国军事和军力情况。另外,“Taiwan”一词排名第三位,显然台湾问题是军力报告关注的重点。
  进一步研究词频发现,在军事领域主题中词频中,依次有“Operations(第13位),Strategy(第16位),Technology(第20位),Modernization(第23位)”,这些词汇相应表明军力报告关注的军事主题包括军事行动、战略、技术和现代化等领域内容。
  在军事武器装备方面,通过表2的词频列表还可以发现表征各类武器装备的词汇,依次有“Aircraft(第18位),Missile(第22位),Weapons(第24位),Missiles(第25位),Nuclear(第37位),Space(第40位),Ground(第49位),Naval,(第53位)”,基本可以看出军力报告主要关注的武器装备有飞机、导弹、核武器、空间武器、地面武器和舰船武器。
  从表2中还能发现,除了表示军事领域的词汇外,还有一些其他领域的词汇也列入了前50位。如经济方面有"Economic(第30位),政治方面有“Political(第45位)”,还有和人物有关的有"People(第34位),Training(第38位),Leaders(第44位)”,表明军力报告还对经济、政治、国家领导人以及相关人员培训的情况进行了研究。
  
  3.2词频分析考察系列报告用词变化趋势
  至2008年年底,《中国军力报告》已经出版了8份,除了可以从总词频中发现报告的关注重点,还可以通过对历年报告的词频分析研究各个年度报告用词的变化,考察各年度报告关注的内容的变化趋势。
  3.2.1各领域关注度变化趋势 结合表2的词频列表,选取“Military,Strategy,Technology,Economic,Poli-ey"五个词汇分别代表军事、战略、技术、经济和政治5个领域,并且将一些单复数、词性变化的词汇也进行合并,如将“Economy,Economics,Economic”合并入“Eco-nomic”,“Strategic,Strategies,Strategy"合并入"Strategy”等,汇聚成一类词频,可得到了历年《中国军力报告》关于5个领域的绝对词频变化情况。每年度《中国军力报告》的词汇数量各有不同,因此,根据各年度报告词汇量对词频数据进行修正后得到了相对词频变化趋势。
  从图1中可以发现表示军事的"Military”词频一直保持上升趋势,而且词频一直高于其他几个领域的词汇,差距也逐年拉大,到2006年达到最高峰。可以说报告对于军事领域的关注度逐年加大。而表示技术领域的词汇“Technology”则逐年呈下降趋势,直到2008年才稍有回升。分别表示战略、经济和政治的词汇"Strategy,Economic,Policy”一直保持较为平稳的词频,相对军事领域来说,报告对于中国战略、经济和经济问题关注度变化不大。
  3.2.2军事装备关注度变化趋势历年《中国军力报告》关注最多的还是中国军事领域情况的变化,而各种武器装备的情况也是历年报告主要的构成部分,因此,对"Space,Nuclear,Ground,Aircraft,Navy”这几个词进行分析,考察报告对于各类武器装备的关注度变化。其中将"Naval,Navy"的词频合并入"Navy”进行统计,然后再根据历年报告词汇量考察各词汇的相对词频变化趋势。
  从图2看出,2000-2003年之间,各个词频略有变化,但"Aircraft,Navy”词频量一直高于“Ground,Space,Nuclear”,其中表明核武器的“Nuclear”排在最后。而2004年开始报告对各种军事装备的关注度开始有了较大的波动和差异,特别对于核武器与空间武器装备,“Nuclear"的词频从2004年开始快速上升,到2006年超过其他所有领域词汇到达最高峰。而"Space”的词频在2007年突然骤然上升,并在2007年和2008年都保持在各个领域第一。表示地面部队和装备的“Ground”一词,从2003年的第三位开始下降到2005年以后的最后一位。而表示海军和空军的“Navy,Air-craft”仅在2002年有所上升,之后一直小幅下降,2004年以后基本保持恒定。应该说这个词频变化情况大致反映了历年《中国军力报告》对中国各种军事力量和装备的关注变化一一从常规性武器装备逐步转向核武器、空间武器等装备。
  
  3.3关键词用词模式分析
  
  Wordsmith软件具有Concord用词模式分析功能,可以进行词组研究,特别是分析指定关键词的用词搭配方式,以此了解关键词用词规律和模式。
  台湾问题一直是中美关系中最为重要和敏感的话题之一,每年度《中国军力报告》都会有对台湾问题进行专门论述。采用WordSmith的Concord功能对所有年份报告中"Taiwan”一词进行模式分析(见表3),在去除部分虚词后可以发现"Taiwan"之前的动词主要是“Preventing,Compel,Degrade,Attack,Prevent”这类具有进攻、迫使、防止等敌对意义的词语。
  另外,通过用词模式分析也可以发现,除了“TheTaiwan Strait”一部分名词词组外,和"Taiwan"搭配使用频率较高的动词词组主要有“Force Agajnst Taiwan”,“Invasion 0f Taiwan”和"Action Against Taiwan”等。这表明《中国军力报告》在台湾问题方面主要关心的是台海军事力量平衡以及台湾地区受到武力威胁的问题。
  当然,其他任何关键词都可以采用同样的方法进行用词模式分析,分析它们在文中主要的词组搭配,寻找语义规律。
  
  4 图情方法在《中国军力报告》中应用研究的结论和体会
  
  本文采用图情研究方法对《中国军力报告》系列报告进行了研究分析,考察系列报告的总体框架结构、关键词、用词模式和变化趋势,研究方法与结论是对相关领域专家及学者研究的一种补充,作为一个独立的研究,并非取代或驳斥他们的研究方法和观点。
  通过采用框架内容研究发现了《中国军力报告》系列报告已经形成固定框架格式,同时在中美关系、中国军事战略未发生重大改变的前提下,通过框架内容分析,也可以推测2009年度《中国军力报告》仍会采用固定的框架结构,并且也得到了相关印证。通过采用词频分析中的关键词用词模式和变化趋势分析,可以发现历年报告的关注重点以及各个领域内容的变化趋势。因此,由于系列报告在时间和内容上的连续性,框架内容研究和词频分析在系列报告研究中可以发现相关的规律与特点。
  另外,本文选择的样本《中国军力报告》涉及军事、政治等内容,因此,词频分析等图情方法在对中美关系等其他学科领域的研究中也具有用武之地。当然,词频分析这一方法是具有其局限性的,特别对于中美关系这样较为复杂和敏感的领域,并非能够依据简单的词频高低来判断所述内容的重要性的,而且词语在句中不同的位置和组配方式也可能形成完全不同的含义。
  当然,单独来看本研究的结论本身可能在中美关系的研究领域里不具有很大学术价值,但是作为情报分析研究的成果,这样的工作对于那些专业研究人员应该有所启发和帮助,可以为他们定性地研判提供某些新的视角。在方法上,本研究仅仅是初步尝试,希望以这样的思路有更多领域的试验,并可以尝试工具化软件化,以逐步提高实用的效果。