[摘要]综述近几年来作者共被引分析在研究方法上面临的挑战,归纳其最新的研究进展和发展趋势,指出各种优化方法目前面临的问题,并就新的发展阶段下该方法的优化问题提出几点注意事项,认为不论是间接法还是直接法,任何一种方法的突破都能进一步扩展作者共被引分析的应用范围,并将作者共被引分析推向深入,也将使最后得到的分析结果更客观、更可靠。
[关键词]作者共被引分析 德瑞克赛模式 相似性度量 网络寻址定位
[分类号]G350
1 作者共被引分析概述
1981年,美国费城的德瑞克赛大学成为作者共被引分析(Author Co-citation Analysis,ACA)技术诞生的摇篮。该校的White和Griffith合作发表了《作者共被引:科学结构的文献测量方法》一文,从而开创了作者共被引的先河。1990年,McCain将ACA的分析步骤归纳为选择作者、检索共被引频次、构造共被引矩阵、转化为皮尔逊相关系数矩阵、多元分析和解释结果及效度分析6个步骤(见图1),人们称其为传统ACA或德瑞克赛模式。该模式以SPSS、SAS等统计学软什为工具,利用聚类分析(Cluster Analysis,CA)、多维定标(Multidimensional Scaling,MDS)和因子分析(Fac-tor Analysis,FA)等多元分析技术,以映射地图的方式来定量地刻画科学结构,寻找科学范式,为后来学者进行ACA分析提供了良好的范例。现在,作者共被引分析已成为一种潜在多产的分析方法,不仅可以用它来揭示科学结构的发展现状乃至变化情况,还可以用它来进行前沿分析、领域分析、科研评价等,进而为宏观科技决策提供先行支持,为科技规划与评估提供基础。
2 作者共被引分析方法面临的挑战
自1981年以来的20多年里,人们一直按照这种约定俗成的步骤来进行ACA分析。然而2003年以来,不断有研究人员向传统的ACA分析方法发起挑战,随之也引发了大量关于优化共被引分析的讨论。这些讨论大致可以分为两个阶段。
2.1关于相似性度量的选择
第一个阶段始于2003年,争论的焦点主要集中在共被引矩阵转化为相似系数矩阵时的相似性度量选择方面(图1第4步),特别是对皮尔逊相关系数r是否适合应用到ACA中这一问题展开,同时也引发了共被引矩阵对角线如何取值的争论,具体如表1所示:
这样的争论由最初的正反两方激烈辩论,态度泾渭分明,发展到后来一些研究人员开始研究各种相似性度量之间的相互关系,思考各种相似性度量是否以及在何种程度上可以相互替代,怎样来评价各种相关性度量的表现等。例如:Klavans和Boyack(2006年)提出用准确率、覆盖率、可扩展性和稳定性作为评价相似性度量的框架;Schneider和Borlund(2007年)认为相似性度量表达式的分子与分母对相互之间的单调性有着潜在的影响,因此理解相似度量成份有助于选择度量和替代度量进行效度检验。随后,他们还推荐利用Mantel检验和Procrustes统计分析来帮助我们选择合适的相似性度量;Egghe(2008年)用数据演示了诸多相似性度量在功能上是彼此相关的,并建立了各种度量之间的函数关系模型,证明它们能够达到一一对应。
除此之外,在信息检索和情报计量学里还有很多关于相似性度量的成份和利用的研究,这里不再一一列举。虽然上面这些研究从特征上说得到了不同的结论,但都促进了相似性度量的选择都是与具体数据相关的观点。因此,众多学者呼吁在更广和更深的层次上对相似性度量展开实证研究,以总结经验法则,为后续研究提供指导。
2.2关于相似系数矩阵的生成方式
第二个阶段始于2006年,争论的焦点主要集中在该使用何种矩阵(引文矩阵还是共被引矩阵)来生成相似系数矩阵方面(图1第3、4步)。该阶段的争论源于2006年Leydesdorff和Vaughan发表的《共现分析及其在信息科学中的应用》一文,他们认为相似性度量(r或cosine等)只能用于非对称的引文矩阵,进而派生出相似系数矩阵,而非直接用于对称的共被引矩阵。一般的统计学教科书在介绍MDS操作时,也都是将相似性度量应用到非对称的事件矩阵上而不是对称的临近矩阵②上。因为共被引矩阵已经是一个临近矩阵,所以没有必要使用相似性度量来使一个临近矩阵转化成另外一个临近矩阵(德瑞克赛模式),否则只会扭曲数据。因此,把相似性度量用到共被引矩阵上是颇有问题的。该文还探讨了共被引矩阵和引文矩阵的区别,以及分别适用于这些矩阵的多元统计技术。在随后的一篇文章中,Leydcsdorff(2008年)对他的观点做了进一步的阐述。
Schneider和Borlund(2007年)在Leydesdorff(2006年)的观点基础上,进一步指出了引文矩阵和共被引矩阵的区别,而且还拿DCA(文献共被引分析)与ACA进行了比较。他们指出“德瑞克赛模式”不仅在生成相似系数矩阵的方式上是非常规的,而且还引出了棘手的对角线的问题。因为在共被引矩阵中,主对角线上的数值一方面代表了该作者的两篇文献被同时引用的次数;另一方面它还代表了该作者同自己的相似程度。从逻辑上说,作者同本人是最相似的,若该数值小于同行或同列的最大值,就不符合逻辑。为了处理对角线问题,先是由White和Griffith提议用引文数最高的前三位之和除以2,McCmn建议设置为缺省效果最佳,Ahlgren等人认为应该使用自己与自己的实际共被引次数,White建议用该行或列的最大值来代替,邱均平、马瑞敏等人(2008年)认为用该行或列的最大值还不足以凸显,应该用最大值+1来定义对角线的取值,Miguel等(2008年)更是建议用行或列的最大值乘以1.5来保证比其他数大,最近Leydesdorff(2008年)又提议在上面填写引文总数。这些解决方案虽各有优缺点,但都说明了主对角线值含义是非常丰富的。如果处理不当无疑会引起矩阵中信息的扭曲,也会影响最后的排序或者聚类结果。因此,他们认为若ACA多采用一些DCA程序(使用引文矩阵来生成相似系数矩阵)的话,那么由传统方法所引发的一系列问题就可以避免。
然而,对Leydesdorff提出的关于相似系数矩阵生成方式的质疑,Waltman和Eek(2008年)却认为被广泛采用的“德瑞克赛模式”没有任何错误。他们指出Leydesdorff和Vaughan(2006年)提出的观点是根据不正确的MDS地图做出的,这是因为SPSS低版本(14.0.0之前的版本)中PROXSCAL内部程序存在错误。Leydesdorff(2008年)反过来却对反驳的意见并不十分认同,他指出自己所提出的观点是基于分析得出的,而不仅仅根据此前得出的可视化图形得出的结 论,因此即使后者存在误差也不能完全否定他的观点。最后他利用Pajek里的Kamada-Kawai算法,再次解释了引文矩阵更具有可取性。
2.3其他一些方法扩展
此外,在这两个阶段中还穿插着一些ACA方法的扩展研究,例如:
在分析对象的选取上,先后有Persson(2001年),Rousseau和Zueeala(2003年),Zhao(2006年),Eom(2007年),Zhao和Strotmann(2008年)对第一作者ACA和所有作者ACA研究进行了对比;
在共被引计数规则上,有传统的0―1二元计数,也有研究人员如Bo Jarneving(2007年)提出了一种不同于二元统计法的乘法计算规则;
在多元分析里普遍存在的怎样确定聚类、因子、分组、维度等的数目难题上,Small和Sweeney(1985年)提出“可变水平聚类”和“以类聚类”的方法,Leydesdorff(2005年)也引进了信息理论的方法对聚类进行解构,此外在社会网络分析里也有大量关于解构的文章存在。
3 作者共被引分析方法的发展趋势
最近几年,在ACA里关于选择合适的相似性度量来评价目标之间的相似性以及选择合适的矩阵来生成相关系数矩阵的争论突出了对更清晰的、无偏见的方法论的需要。针对ACA目前面临的困境,相关的研究人员在探索ACA方法的优化上正朝着两个方向发展。
3.1间接法的发展趋势
一个方向是继续沿着传统方法进行ACA分析,在相关的步骤上进行渐进性和尝试性的改革,比如根据具体数据选择合适的相似性度量,选择更优的相似矩阵生成方式,由通过传统的多元分析技术扩展到引入社会网络分析软件如Pajek,UCINET,VxOrd等来生成可视化地图。这是目前大多数研究人员采用的方法,我们称之间接法。因为该途径用的是间接的相似强度,即原始共被引数经过相似系数标准化了的,上面在传统ACA面临的挑战部分所举的实例都是对间接法的优化案例。这些渐进性的改革使得研究人员得到了更有可信度和说服力的结果。
笔者认为,间接法经历了时间和实践的考验,逻辑严密,步骤清晰,不存在大的方法论问题。但对于该方向的优化思路,我们不得不指出,间接法即使避开了共被引矩阵中主对角线的设置,选择引文矩阵来生成相似系数矩阵,但终究还是需要相似性度量来执行标准化。最优相似性度量的选取始终与具体数据相关的特性,需要研究人员进行更多和更深层次上的实证探索来总结经验法则。可见,两个阶段的争论最终还是指向了相似性度量的选取。因此,相似性度量的选择始终是间接法迈向着精确化时亟待突破的瓶颈。
3.2直接法的发展趋势
另外一个方向是使用直接的相似强度,即共被引矩阵中的原始共被引数,我们称之直接法。传统ACA中存在相关系数选择难题和共被引矩阵中主对角线值设定问题,在依赖多元分析技术生成二维可视化地图后,还要通过肉眼观察人工为散点划定边界形成研究社区等,不但增加了ACA的复杂性,也严重阻碍了ACA的广泛应用。为此,人们开始寻找新的技术方法替代传统方法。White(2003年)将网络寻址定位(Pathfinder Network Scaling,PFNETs)引入ACA,直接使用共被引矩阵中的原始共被引数据,将ACA分析推进到网络分析:在PFNETs生成的可视化地图里,节点代表作者,节点之间的实线连接代表加权路径,权数在这里即共引数。比起传统的ACA,PFNETs可直接产生于原始共被引矩阵,而不需要再将它转化为皮尔逊相关系数矩阵,减少了ACA的计算强度,结果也更为可信。2003年White采用此法对1998年的同一实验数据进行了第二次分析,得到了更为准确可靠的分析结果。此外,Wallace和Gingras(2008年)利用了最近由Blondel等研发的一门新技术来从作者共被引网络里探索科学范式。它使用的也是原始的共被引数据,绕开了使用相似性度量。相比起之前大多数聚类方法来,它只依赖于加权网络的拓扑结构,而且能扩展应用到相对较大的网络上。最重要的是它不需要设定任何自由参数,不需要对数据前置或者后置处理,也不需要对共被引数据或者被发现的社区进行主观解释,也具有一定的可取性。
笔者认为,与间接法相比,直接法将复杂的操作嵌入分析软件中,步骤简洁,计算强度低,易于操作。但直接法还是有着不可忽略的缺点,例如它直接使用原始共被引次数作为共被引强度,在避开相似性度量的选取的同时,却忽略了数据标准化的步骤。关于共被引数据标准化的问题,此前很多研究人员认为都是必不可省的步骤,如Waltman & Eck(2007年),Leydesdor-ff(2007年)等,因为原始的共被引次数没有修正作者间被引次数的差异。若按照直接法,以共被引绝对数直接来代表相似性强度大小,那么我们就可以推论:一个高被引的作者(可能是由于发表的文章多,也可能是因为文章数量少而质量高)平均说来该作者与其他作者间有较高的相似性,而一个低被引的作者平均说来与其他作者间有较低的相似性。我们认为,这是颇有问题的。因为作者被引的次数多少或许是对其著作重要性的一个显著度量,但是对于该作者与其他作者的相似程度根本没有影响。因此,笔者认为,要想展现作者间的相似性,对数值进行标准化是不可或缺的步骤。
3.3新阶段下ACA分析应注意的问题
此外,在两个优化方向的发展趋势上,我们发现基于更大规模数据分析的需要,越来越多的研究人员采用社会网络分析软件来生成可视化地图,如Pajek,UCIENT,VxOrd等。这些软件包括Cite space等逐渐将ACA推进到了网络分析阶段。社会网络分析工具固然有其优点,但是也面临着网络分割等难题。笔者认为在处理时要注意以下几个问题:首先,作者间连接的权重(相似值)非常关键,这里也是大多数信息存储的地方。因此,任何基于网络的方法必须不仅考虑到作者间联系的存在,而且还包括联系的强度。第二,考虑到要识别的聚类(学派、社区或范式),研究人员不应做出任何选择,也不该提前对社区的数目或总体的数量作出限制。第三,除了极大的网络外,对于网络的规模或拓扑结构不该有任何限制。若有些网络比其他网络社区结构更清晰,那么这应该在输出的结果里被反映出来。最后,对于网络本身,不该有任何的前提假设。换句话说,在应用算法前数据不应变动,只有它们的内部结构才是决定它们如何分割的关键。
4 结语
本文综述了近几年来作者共被引分析方法面临的挑战,归纳了其最新的研究进展和发展趋势,指出了各种优化方法目前面临的问题,并就新的网络分析阶段下ACA的优化问题提出了几点注意事项。虽然还有很长的路要走,但笔者认为随着研究的深入,会有更多更好的优化思路和方法出现。总之,不论是间接法还是直接法,任何一种方法的突破都能进一步扩展ACA的应用范围,将ACA分析推向深入,也将使最后得到的分析结果更客观、更可靠。