信息检索论文【信息检索可枧化研究发展规律探析】

  [摘要]将HistCite与Bibexcel、UCINET相结合,从一个全新的视角探析国际信息检索可视化研究的发展规律。通过研究,划分国际信息检索可视化研究的发展阶段,发现其发展轨迹中引证关系链所隐含的学术流派,并分析关键词特征向量中心性网络图谱,确定该领域研究的热点。
  [关键词]信息检索可视化 引文编年 引文共现 网络图谱
  [分类号]G350
  
  1.引言
  
  信息检索可视化是将信息资源、用户提问、信息检索模型、检索过程以及检索结果中各种语义关系或关联数据转换成图形,显示在一个二维、三维或多维的可视化空间中。它能有效地帮助用户理解检索结果,把握检索方向,提高信息检索的效率与性能。信息检索可视化为用户展示了一种全新体验式发现信息的检索模式,能使用户对文档的内容进行整体的跟进,帮助用户真正确定查找的方向。为了解国际信息检索可视化研究的发展脉络与趋势,笔者拟将HistCite与BibexceI、UCINET相结合,从一个全新的视角对其发展规律进行探究。
  
  2.数据来源与研究方法
  
  2.1数据来源
  本文以Thomson.ISI的引文索引数据库SCI网络版――Web of Science中的科学引文索引扩展版(SCIE)和SSC!数据库为文献来源。检索方法选定为高级检索,检索式为:“TS=Information visual retrievalOR TS=Visual inlornmtion retrieval OR TS=Informationretrieval visual”。检索年限设定为“默认所有年限”,其中文献类型设定为“Article”,共得到1441条符合条件的记录。数据下载的方式设定为“作者、标题、来源出版物、摘要以及所引用的参考文献”,数据下载结束的时间为2011年1月4日。
  
  2.2研究思路与方法
  本文的基本研究思路是:首先利用引文编年可视化软件,绘制出引文编年图,以此方式揭示出信息检索可视化研究的发展历程与引文规律,然后通过关键词共现分析得出其热点问题,从而探析信息检索可视化研究的发展趋势。
  引文编年可视化使用的软件是世界著名的文献计量学家尤金?加菲尔德博士(Eugene Garfiled)开发的HistCite。该软件可以指导人们从众多的科学文献资料中找出各个学科本身以及之间的研究历史轨迹、发展规律和未来趋势。在科学史研究中,该程序绘制的引文编年图可以帮助研究者识别重要文献和它们之间的关系,把握整个专题的发展轨迹和走向,在一定程度上使得科学史研究更加“精确”和“客观”。
  引文共现分析则借助于Btbexcel和社会网络分析软件UCINET来完成。BibexceI是由瑞典著名科学计量学家佩尔松(Persson)开发的引文共现与分析软件;UCINET是由美国加州大学欧文(Irvine)分校开发的社会网络分析集成软件,目前该软件已被国内外图书情报学研究领域广泛应用。
  
  3.研究结果与分析
  
  3.1信息检索可视化研究的发展脉络
  3.1.1信息检索可视化研究的时间分布 通过分析研究论文的时间分布,有助于了解其所在学科领域发展的历史进程。国际信息检索可视化研究文献的时间分布情况如图1所示:
  
  信息检索可视化研究起源于1988年。开山之作是日本广岛大学著名科学家Ichikawa Tadao等的文章《基于语义功能的信息检索可视化用户界面》。1988―1997年连续10年的文献发表量仅有121篇,占所下载全部文献总量的8.39%,年均12篇,这一时期是信息检索可视化研究的萌芽时期;1998―2004年文献数量逐年稳步增加,7年发表文献578篇,占所下载全部文献总量的40.11%,年均82.57篇,这一时期是信息检索可视化研究的兴起时期;2005-2010年,文献数量虽有较大的起伏,但6年的文献发表量高达742篇,占所下载全部文献总量的51.49%,年均123.67篇。这一时期可视为信息检索可视化研究的稳定时期。图1以折线清晰地反映了信息检索可视化研究发展历程。
  3.1.2信息检索可视化研究的引文编年 将所下载的全部数据导入HistCite,该软件会自动运行并生成文献记录年度分布表,该表直观地按照时间由远及近的顺序分年度列出了信息检索可视化研究领域中全部文献记录的基本书目信息及其被引频次,这也就从原始文献(施引文献)的角度描述了信息检索可视化研究的发展轨迹。如表1所示:
  
  从表1可以看出,该表包含的文献记录计1441条,共有文献著者3644名。原始文献分布于529种期刊之中。全部文献记录包含引文42051条,关键词2847个。表中文献记录的排序方式既可以按年度,也可以按期刊或按作者,还可以按照被引频次进行。文献记录的上方还有一些蓝色字体的按钮:点击这些按钮,可以进行相应分析。如点击authors,软件会列出所有作者,并将每位作者的文献数、引用次数等信息列出来。在默认窗口的右侧,有LCS、GCS、LCR、CR 4个蓝色按钮。GCS是global citation score,即引用次数,也就是文献在Web of Science网站上看到的引用次数。如果点击GCS,软件会按照GCS进行排序,此时的结果与WOS网站按被引频次排序的结果是一样的;CR是cited references,即文章引用的参考文献数量;LCS和LCR是histCite里比较重要的两个参数。LCS是localcitation score的简写,即本地引用次数;与LCS相对应,GCS是总被引次数。LCS是某篇文章在当前数据库中被引用的次数。所以LCS一定是小于或等于GCS的。一篇文章GCS很高,说明被全球科学家关注较多。但是如果一篇文章GCS很高,而LCS很小,说明这种关注主要来自与你不是同一领域的科学家。此时,这篇文献对你的参考意义可能不大。根据LCS可以快速定位一个领域的经典文献,LCR是与CR对应local citedyeferences,是指某篇文献引用的所有文献中,有多少篇文献在当前数据库中。根据LCR可以快速找出最新的文献中哪些是和自己研究方向最相关的文章。
  对表1可视化,可以得到引文编年图。对于HistCite而言,用户可以自己确定一个GCS或LCS的值作为阈值,系统就会选取文献集合中用户规定阈值以上的文献。阈值太低时,文献之间的相互关系反映不充分;阈值太高时,形成的引文编年图又不容易分辨。笔者根据所下载文献记录的实际情况,将LCS阈值设定为50。图2即为在“LCS=50”时生成的引文编年图:
  
  图2中每一个圆圈表示一篇文献,圆圈的大小代表文献被引频次的多少。被引频次越高,圆圈就越大。带箭头的连线代表文献节点之间的引用关系,箭头指 向的文献是被引文献,圆圈内所标数字指明陔节点文献在文献集合中的顺序号。引文编年图以从上到下的空间顺序表示由先到后的时间顺序,各文献按照其发表年份的先后给予序号并安排在图中相应位置。HistCite生成的引文编年图,可清楚地显示信息检索可视化研究的历史沿革、研究文献之问的继承关系及其在各研究阶段的发展程度。
  从图2可以看出,1992年以前与2005年以后的文献节点是空白,这表明在这两个时间段内,没有出现具有一定影响力的经典文献(即高被引文献)。而在i993―2004年之间既有独立的文献节点,又有相互连接的文献节点引证关系链。其中以l和2两个引证关系链最具代表性。引汪关系链1由文献记录55、92、162、207、255、366、477、492和634共9个文献节点组成,从现代信息技术层面对信息检索可视化做了一定的探讨,提出并完善了基于内容的图像检索系统,其中以文献55和文献162最有代表性;引证关系链2则由23、48、53、70、150、189、306、307、346、402、526、557、561、649和669共15个文献节点组成,从生理解剖与认知科学的角度对信息检索可视化的研究做了深层次的考察,认为人的大脑皮层以及颞叶对视觉的刺激非常敏感,可视化的图像刺激有助于人记忆的关联与唤醒,其中以文献23、48、306和307具有代表性。
  由此可见,引证关系链的出现,不仅客观地反映了信息检索可视化研究领域存在的学术流派,也从引文的角度揭示了信息检索可视化研究的内部发展规律。
  
  3.2信息检索可视化研究的热点分析
  关键词是表述文献主题、内容、思路以及研究方法的关键性词汇,是信息计量研究的重要指标。由于关键词能够揭示文献主题的核心信息,可以从一个侧面反映出论文的主要研究领域和方向,因而国内外的一些学者经常通过关键词的共现分析来描述某学科领域的研究方向与研究热点,并取得了一定的成果。
  将全部文献记录导入Bibexcel并加以处理,得到相应的关键词频率分布表,如表2所示:
  
  从表2中选取高频关键词(被引频次≥11)导出高频关键词的共现矩阵,然后将共现矩阵导入社会网络分析软件UCINET,利用UCINET组件Netdraw可视化以后,得到了高频关键词特征向量中心性网络――高频关键词共现网络图谱,如图3所示:
  
  特征向量中心性是社会网络分析中中心性分析的一项重要指标,该指标能够比较准确地反映出某个关键词在整个网络中的地位。可以直接运用关键词特征向量中心性网络图谱确定出有关学科的主要前沿领域和核心主题。
  从图3可以看出,信息检索可视化的研究热点主要集中在记忆、信息检索、机能性磁共振成像、图像检索、工作记忆、基于内容的图像检索、识别、神经影像学、信息可视化、语义记忆以及神经心理学等领域。其中共现频次最高的关键词是记忆(memory),位于整体网络的中心;其次是信息检索(information retrieval)与机能性磁共振成像(IMRI),共现频次分别为54和43,也很接近整体网络中心。从网络结构上看,关键词共现整体网络由两个子网与几个独立点所构成。左上方的子网主要由关键词信息检索、信息可视化(information visualization)、图像检索(image retrieval)、基于内容的图像检索(content-based image retrieval)、目标识别(object recognition)与相关反馈(relevance feedback)所构成,其核心关键词是基于内容的图像检索,共现频次为33。该子网关键词所代表的研究方向是信息检索可视化研究的主体方向,也是学科研究热点之所在;右下方子网主要由关键词记忆、机能性磁共振成像、正电子发射型计算机断层显像(PET)、海马体(hippoeampus)、源记忆(source memory)、前额叶皮层(prefrontalcortex)、识别(recognition)、检索(ret~evaI)、注意(attention)、熟悉(familiarity)、编码(encoding)、回忆(reeollection)、情节记忆(episodic memol7)、神经影像学(neuroimaging)、语义记忆(semantic memory)所构成,其核心关键词是检索,共现频次20次。该子网关键词所呈现的则是信息检索可视化研究在生理、神经网络与认知科学等领域的技术支撑。两个子网之间依靠记忆、机能性磁共振成像与目标识别三个关键词相联系,共同构成一个网络整体。除此以外,脑电图(EEG)、MPEG-7、老化(aging)、认知(cogm‘tlon)、基于内容的检索(content-based retrieval)、人脸识别(face recognltion)、工作记忆(working memory)、事件相关电位(event-related potentials)等几个独立节点游离于整体网络之外,难以形成研究热点问题。
  
  4.讨论
  
  通过以上研究与分析,可以得出如下结论:
  ?信息检索可视化研究大体经历了萌芽、兴起与稳步增长三个历史阶段,研究文献与引文数量也逐年增加。引文编年图中呈现的两个重要引证关系链,不仅客观地反映了信息检索可视化研究领域存在的学术流派,也从引文的角度揭示了信息检索可视化研究的内部发展规律。而关键词特征向量中心性整体网络图谱中两个子网的出现,不仅揭示了信息检索可视化研究的热点所在,而且从“共现”研究的角度印证了引文编年图谱中两个重要引证关系链的客观存在。
  ?HistCite绘制的引文编年图虽然能够通过不同年代文献节点之间的引用与被引用关系反映出某一学科领域发展历史轨迹,却无法反映出文献之间引证关系的密切程度以及有关研究领域的研究热点与发展趋势;Bibexcel的强大功能在于知识单元的共现分析。原始数据记录通过Bibexcel处理,即可得到高频关键词共现矩阵,矩阵通过UCINET绘制高频关键词特征向量中心性整体网络图谱并加以分析,不但可以科学合理、客观公正地评价信息检索可视化研究文献之间引证关系的密切程度,而且可以了解其研究热点与发展趋势。将HistCite与Bibexeel、UCINET结合应用,则能使它们取长补短,收到良好的研究效果。