[摘要]竞争情报实践离不开收集大量资料,在这些收集到的公开资料中有大量自由文本,从这类文本中正确高效地提取出情报是非常重要的。从可视化技术角度,把文本可视化分为文本内可视化和文本间可视化技术,并分别就这两大类技术下的各类文本可视化技术的特点以及如何将它们应用于竞争情报文本分析进行阐述,提出文本可视化是竞争情报分析的新的重要手段。
[关键词]文本可视化 竞争情报 竞争情报分析
[分类号]G350
1、引言
目前对竞争情报没有统一的定义,但无论中外,竞争情报都是指通过公开、合法的手段搜集各类信息,依靠对收集到的信息进行科学分析得到用于决策的情报…。当前资料的主要来源包括从各类媒体中收集公开报导,从公开的数据库中收集学术文献,从互联网收集网页、论坛、邮件等,收集的资料大部分都是半结构化或非结构化的文本信息。如何高效地从中分析出有效的情报来支持决策,成为竞争情报研究的重要内容。
竞争情报实践借助IT辅助手段由来已久,而且计算机系统在竞争情报信息的收集、存储和处理分析中已具有非常重要的地位。但一直以来从文本中分析出竞争情报所需内容的工作却很难借助计算机来自动完成。2000年由美国加州大学伯克利分校的Peter Ly-man和Hal Varian领导的团队研究认为,当前人类每年新产生的数据量大约是2 EB(每EB相当于106TB),即便其中文本只占较少的比例,仅1999年当年新印刷的书也超过1 000 000本。以人类的阅读能力,面对如此海量的数据,且不要说从筛选的信息中分析到有用的情报,仅仅“筛选”就是不可能完成的任务。
如何让人们能以最快的速度从大量以抽象数据形式存在的文本中获得有效的情报,在竞争越来越激烈的互联网时代是非常重要的。笔者认为把可视化技术应用于文本处理是解决方案之一。
在人脑中,有70%的感知和40%大脑皮层的接受是与视觉有关的,与触觉、听觉等其他知觉相比,视觉的带宽要宽得多。进一步的研究还表明,人们感知和记忆可视化图像的带宽是文本的2倍。可见对于图像的认知能力使图像成为人类最有效的交流方式,也显示了用图像来表达和传递文本信息的价值。
所谓文本可视化是指从文本中提取出一定的模式来生成图形,用户通过与可视化界面的交互来快速理解文本。当前文本可视化已经形成了不少技术,依据可视化的对象是着眼于文本内还是文本之间,笔者把目前的文本可视化技术划分成“文本内可视化”和“文本间可视化”两大类,它们都能在竞争情报中发挥重要的作用。
文本可视化的文本范围包括:论文、书本、Web页面、电子邮件、论坛中的评论、社交网站中的贴子和个人资料以及博客和微博中的博文等内部没有结构、内容千差万别的“自由文本”。
2、文本内可视化
文本内可视化的主要目的是快速地从文本中找出重要的内容,通过揭示内容的结构和内容之间的关系帮助用户快速获取所需情报,通过划分文本细节为用户获得情报进行导航,减少竞争情报分析人员在低附加值劳动中所花费的时间,提高分析工作时效。
文本内可视化依据可视化呈现的特点可以分为词汇索引式的文本可视化、基于词频的文本可视化和基于词汇分布的文本可视化。
2.1 词汇索引式的文本可视化
这类可视化从全文中搜索词汇,把去掉停用词后剩下的所有词汇编成一个索引,通过索引来展示相应词汇在全文中的使用。图1的左侧图中,左边栏显示的是所有的索引词,通过鼠标点击选中某词,右侧窗口会显示文本中所有与该词相关的句子。图1的右侧图来自施乐PARC研究中心的SeeSoft,图形每栏中的一行代表文本中的一个句子。通过选择左侧的词,右侧文本中与该词相关的句子就会高亮地显示出来。
词汇索引式的文本可视化在竞争情报的分析中是非常有用的,比如,通过所形成的词汇的统计数据可以让竞争情报人员知道该文本所论述的主要内容,并通过与之相关联的句子快速从文本内找到核心数据和主要内容。如果是有目的地查找和检索,则可以从相关词汇在整个文本中的分布状态快速判断该文本的价值,从而从大量的全文阅读中解脱出来,把更多的精力用于情报分析。
2.2 基于词频的文本可视化
基于词频的文本可视化是目前经常被采用的一种方式。人们因某个词在文本中反复出现而假定该词是文中的重要词汇,在把文本用可视化方式展现时,通过改变词的大小、颜色、中心位置等方式把出现频率高的词显示在重要、醒目的位置。
词频统计技术是文本挖掘的重要技术,也是基于词频的文本可视化技术中除对于词的“可视化映射”和“显示技术”之外的重点技术。目前对于西文基于词频的可视化技术相对比较成熟:从全文抽取出所有词汇,去掉停用词后对所有剩余的独特的词建立统计表。建表的方式多种多样,有些是用柱形图,有些是放在数据库的一个字段中。在统计的过程中,要运用一些如Porter Stemming等的算法对英文单词进行原形化处理。
应用相对词频计算(TFIDF,term frequency inverteddocument frequency)算法处理文档中的词以确定该词的重要性。目前可以使用的TFIDF算法有很多,比较常见的计算公式为:
公式中w(t,D)为词t在文本D中的权重,tf(t,D)为词t在文本D中的词频,N为文本集中的文本总数,n为向量的维数,ti为向量第i个分量对应的特征项,nti为总文本中出现ti的文本数,nt为文本集中出现t的文本数,分母为规范化因子。
在图2中,左图是目前常见的标签云图,它按照全文中所有词汇出现的频率来确定词的大小;右图的中心词汇是可以通过点击鼠标来切换的,切换后中心词的外圈是整个文本中曾与该词汇搭配出现的词,词的大小是由出现的频率决定的。
基于词频的文本可视化可以应用于单个文本,也可用于大量文本集汇成的文本。这种技术在收集到数量大而对内容毫无所知的资料时是非常有用的:把所有资料统一到大的文本集下,通过字云(见图2左)技术快速了解最主要被使用的词汇,从而知道文本集最主要的论述内容,用于快速推断文本集中所论述的主要研究领域、研究热点。通过层次词频结构(见图2右)可以快速获得竞争情报课题中感兴趣的词汇在文本或文本集中与哪些其他词汇有共现关系,共现的紧密程度如何,帮助从大量文本中发现竞争对手、竞争环境中的危机和机会。如果文本集中的文本带有时间戳,还可以快速发现变化趋势。
2.3 基于词汇分布的文本可视化
这种类型的可视化是用可视化方式呈现全文中与输入的查询条件一致的词在文章中的分布情况,可以让查询者更清楚地了解返回文献的内容与自己需求的对应关系,从而有针对性地选择文献。以来自加州大 学伯克利分校的TileBars为例:它会依据输入的关键词对于资料库中所有资料进行全文分析,然后返回符合搜索条件的文本,而且用可视化的方式告诉你检索词在文献全文中的频率分布。
图3中的长条代表着文献全文,一行长条对应一个检索词在文献内的情况,每一个矩形代表文章的一个自然段。对矩形颜色的灰度也有明确的定义:灰度越高,该检索词在该自然段出现的频率越高;反之则频率越低,当颜色为全白时,表明该检索词没有在该自然段中出现。以图3中的返回结果为例,文献1较长,但提到“Information”的段落基本都没提到“Visualiza-tion”,而文献2中有3个自然段同时出现这两个词。如果分析的对象是“Information Visualization”,则文献2的价值更高。
在当前信息充分丰富的情况下,“查全率”已不是最受关注的问题。当一次检索返回成千上万条查询结果时,通过词汇在整个文本中的分布示意使快速了解文本内容相关度、找到最相关的资料成为可能。
3、文本间可视化
文本内可视化研究的重点在于揭示文本内部内容的重点、内部结构之间的关系。而如果要看到多个文本之间的关系、多文本内容的异同程度、一系列文本内容的重点随时间的变化情况等就要通过文本间可视化技术来展现。
3.1 基于时间序列的文本可视化
时间是文本的一个重要属性,针对文本在时间上的关系进行可视化,同时在此基础上进行一些特别的分析,可以发现多个文本背后的规律,是研究趋势、技术发展的规律以及文章内容的变迁等的有效工具。
图4是通过ThemeRiver实现的对1990年6月至8月间超过100 000份西方国家主要报纸的报导所生成的可视化图。图中一种颜色代表一种主题,宽度代表频率。从中可以看到白色和黑色在8月份突然得到高频关注,这是因为8月2号Iraq入侵了Kuwait。该图同时揭示了可视化图从左到右始终持续地得到关注的主题:石油。
字云技术也是分析文本主题随时间变迁常被用到的技术。The Daily Beast网站通过字云技术展现了美国从Woodrow Wilson到Barack Obama共计21位总统就职演讲的字云图,不必分别阅读每位总统几千字的演讲全文,一眼就可以看到各自演讲的重点;如果从时间角度对比,还可看到历届总统执政重点的变迁过程,这是很重要的竞争环境的情报。
时间是竞争情报非常重要的分析对象,在竞争情报实践过程中所收集的资料基本都是与时间有关的。传统的分析方法很难把时间与文本分析结合起来,而借助基于时间序列的文本可视化技术可以快速揭示多个文本内容背后的规则和模式。
3.2 基于主题地图的文本可视化
基于文本主题的可视化技术是目前文本可视化应用最多的方式之一。它可以让用户更直接地从海量文本中找出感兴趣的文本集,在查准率的基础上顾全查全率,还能得到通常只有通过内容分析才能获得的潜在关系。
文本主题的形成是在对文本进行全文抽词的基础上应用某种TFIDF算法得到的,确定了主题词后用该词集通过某种向量空间模型在向量空间中表达该文本集,对于整个文本集通过多维尺度MDS、Isometric特征映射(1somap)等方式来降维处理,再通过自组织算法(SOM)和可视化映射表达为可视化的主题地图。
以来自美国太平洋西北国家实验室(Pacific North-west National Laboratory)的IN-SPIRE为例,其实现方式就是扫描源文本的全文或文摘,抽取出域和相应的术语,再依据域到术语的索引生成“术语到域”的索引。通过FAST-INV算法生成把整个文本作为一个记录的“术语到记录”的索引。利用建立的索引发现相关联的术语集群,形成N维的“主题”和“核心术语”,把记录中全部M个词分别去与这N维关联,形成关联矩阵。对该关联矩阵进行计算得到每个记录(文本)中的知识标签,这样该文本就在一个高维的N维空间中占据了一个点。对文本集中的其他文本也采用同样的方式进行处理,最终使每个文本都有自己在N维空间中的位置。然后通过计算这N维空间中各文本之间的标量距离进行聚类,再通过多维尺度降维算法把它投影到二维空间中形成如图5所示的可视化图形:
图5中山峰和山谷表示主题与主题之间的关系。大量内容相近的文本聚成山峰,其高度与该主题下的文本数相对应。山峰之间的距离代表主题之间的关系,峰间距离越近则表示相应文本的内容相似度也高。
在竞争情报实践中主题地图可视化是非常高效的工具,收集到大量资料时情报分析人员首先要进行筛选找出相关资料。面对海量数据采用人工方式是不可想象的,而借助主题地图文本可视化技术可以迅速了解这些资料的大致类别。如果只对某个主题有兴趣,就只需研究组成该山峰的文本;如果是为了分析资料集中不同主题间的关系,也可以很直观地实现。
3.3 基于引用关系的文本可视化
其可视化依据的是文本之间的引用关系,虽不是直接针对文本内容,但因其可聚类内容相似的文本,也可作为理解文本的重要手段。
通过对作者或文献之间的互引、同引、同被引的可视化分析,应用可视化图谱中的引文网络时序图、共引网络图谱和时间线视图等可揭示某个研究主题的论文或专利的源头、最初著者及其发展脉络,可探测研究前沿随时间变化趋势,可以绘制各领域主流期刊和相关群体,揭示期刊、作者之间的相互关系和交叉关系。
知识图谱的可视化方式目前已经成为学科情报研究的重要手段。而把这种可视化方式应用于对专利文献间引用关系的分析,可以揭示竞争情报中非常重要的技术情报,用直观的方式展示某个专利技术领域中核心的专利和技术及其重要的发明人,该领域技术的发展历程等,对于企业创新技术、网罗人才、确定战略方向等有重要的价值。
基于引用关系的文本可视化技术其可视化的重点是揭示网络关系,因此,网络可视化是其中最常用到的可视化技术。笔者认为在可视化研究领域,网络可视化是与文本可视化处于平等地位的重要分支,相关的技术也非常多而复杂。鉴于其不是本文研究的重点,在此只就其在文本可视化中的应用作简单阐述。
在分析主题的基础上对文本间的引用进行网络分析,可以通过计算关联主题数量的方法识别主题网络中的核心主题和次要主题,关联主题数量最多的为核心主题,其他为次要主题。
4、结论
网络时代带来的是竞争的全球化和对竞争响应的高效化,让人类拥有从来也没有过的丰富信息资源,同时也给人们从中汲取有用情报带来了困难。
虽然把可视化技术应用于文本研究的时间并不长,但目前已取得一些卓有成效的成果,如已有不少国外图书馆采用可视化的检索和搜索;主题地图文本可视化方式已成为多个可视化专利分析软件的重要组成部分,成为揭示技术研究热点、空白点、技术变迁的重要分析工具;字云技术目前更是已经成为很多需要快速揭示大量文本内容信息的重要手段之一。
受中文自然语言处理技术的影响,文本可视化技术全面应用于中文竞争情报文本的分析受一定局限,但通过本文的论述仍可看到文本可视化对竞争情报的价值。在快速响应的网络时代,传统人工阅读的方式已经根本无法适应,自动摘要等文本处理技术也还存在很多不足。文本可视化在竞争情报中的应用可以使知识发现的分析结果为更多、更广泛的人群所理解,可以局部解决信息过载问题,在竞争情报研究、决策支持等相关领域发挥出巨大作用。相信解决中文文本处理只是时问的问题。