[摘要]近年来,社会标签的发展非常迅速,在信息组织和信息构建领域有着广泛的应用。社会标签的进展主要归纳为两个方面:①在各个领域中的应用进展;②与传统知识组织体系的关系探讨和融合研究。社会标签与知识组织体系的融合模式主要分为三种:①两者之间直接进行映射;②从分类表中抽取上下级关系和相关关系;③将分面分类的理论与方法移植到社会标签上,达到对标签词的组织和呈现。
[关键词]社会标签 大众分类 法研究进展 信息组织
[分类号]G250.76
作为Web2.0环境下的一个核心构件,社会标签自从产生后就得到了大众的广泛关注。图书馆、博物馆等信息组织领域和计算机、信息构建等信息技术领域的学者都对社会标签产生了浓厚的兴趣。目前,国内外对社会标签的概念仍然没有一个统一的定义,国外社会标签(social tagging)等同于folksonomy,coHabo-rative tagging,social classification,social indexing。在我国被称为大众分类法、公众分类法、民俗分类法和合作标注等。
1 社会标签概念、类型
1.1社会标签的概念
学者们普遍认同社会标签是由用户产生的、对网络内容进行组织和共享的自下而上的组织分类体系。一些学者侧重对其分类属性的认识,如Folksonomy词汇的创造者Thomas Vander Wal认为一个标签既是对一个实体的描述,也是一个分类的过程。Halpin和Mathos也持同样的观点,认为社会标签是一种用来解决网络分类问题的新兴方法。一些学者则比较侧重其元数据的本质,Golder,Scott和Huberman,Bemar-do A认为社会标签是用户以关键词的形式来添加元数据,以达到共享内容的过程。还有一些学者将社会标签作为一种社会索引方法,认为其是对手工索引的一种复兴,因为社会标签系统允许用户用自由关键词手工标注电子资源,并将社会标签认为是由用户而非专业索引者创造的主题标目。
1.2社会标签的类型
通过对收集的标签词进行分析,可以总结出标签的不同分类。Maths在2004年指出,标签的种类包括:技术、文学体裁、自组织、地点名、年代、颜色、图片词汇和一些对自我有意义的词汇。同年,Partington经过分析也给出了他建议的标签类型,如媒体、主题、文学体裁、名称和地点。2005年Golder,Scott和Huber-man,Bemardo A也对社会标签系统的结构进行了探讨,归纳了社会标签的7个类型,分别是识别主题内容的标签、关于内容载体的标签、确定是谁创建的标签、用于分类提炼的标签、确定有内容特色的标签、用于自我参考的标签和用户任务组织的标签。
2 社会标签的总体进展概述
2.1社会标签的应用进展研究
自从2004年社会标签产生以后,研究社会标签的文献几乎呈指数型增长。无论是在图书馆、计算机领域,还是在教育、企业、商业和社会传媒领域,对社会标签的研究和应用都备受瞩目。Gene Smith将社会标签定位在三个重要领域的交叉部分,这三个领域是:信息构建、社会软件和个人信息管理。社会标签的应用研究主要集中在社会标签在图书馆信息服务、图书馆编目、博物馆、企业以及教育领域如e-learning中的应用情况与分析。应用实例如:宾夕法尼亚大学开发了一个社会标签工具Penny Tags,用来方便校园用户对感兴趣的资源进行定位、组织和共享;密歇根州安阿伯地区图书馆将社会标签首次引进到OPAC中,用户在其网站注册后,便可以进行编目,编目时可以用关键词的形式对一些资源对象赋予标签。
2.2社会标签与知识组织体系的融合研究
社会标签和知识组织体系的融合集成一直是社会标签领域的研究热点和难点,如何将社会标签这种自下而上的组织体系与传统的自上而下的知识组织体系进行融合,很多学者对此进行了理论与实践的探讨,德国学者Katrin Weller和Isabella Peters认为知识组织体系和社会标签之间界限模糊,社会标签可以采用一些知识组织体系的指导原则,可以用一些词汇控制和语义的元素来进行补充丰富。同时,社会标签还为逐步创建语义丰富的知识组织体系提供了基础,因为它可以精炼当前的分类表、叙词表和本体。而为了解决诸如Fliekr这样的社会标签系统中标签检索的问题,JosefKolbitsh开发了WordFlickr,提出了基于使用语义术语数据库WordNet来扩展查询标签的方法,当用户向WordFlickr提交检索时,可以选择相关关系或上下级类目关系用来扩充他们的原始检索。传统的知识组织体系如叙词表存在着更新不及时的问题,而社会标签则显示出其强大的新词接纳能力和无限的词汇扩展能力,可以作为对传统知识组织体系的一种有力的补充方法。Louis Rosenfeld认为社会标签与词表、分类法这种传统的知识组织体系不是非此即彼的关系,最好的方法是将两者结合使用,共同形成一种和谐的元数据生态。在教育资源领域内,Vuorikari,Riina也持同样观点,他认为在学习资源领域的社会标签与传统的学习对象元数据(LOM)共同形成了一个教育资源领域内的“元数据生态”(metadata ecology),以此来形象地表达社会标签与传统KOS之间的相互补充关系。
2.2.1 社会标签与词表的比较研究 对社会标签和传统知识组织体系的融合进行研究时,先要研究它们各自的词语特点;若要两者进行融合,必须先要进行比较分析研究。一般的比较方法是从社会标签系统中抽取一定数量的用户标签词,然后选择一个词表,采取人工或者机器的方式,将两者进行匹配分析,查看两者之间的词汇重叠率。Robert Bruce研究了教育资源信息中心(Education Resources Information Center,ERIC是基于教育研究的,可用于检索书目引文和文摘的在线索引)中期刊的索引词和基于社会标签的网站Citell―Like中的标签词两者之间的重叠度,结果显示两者之前有着很低的重叠度。Lin等人比较了分配给有关医学的期刊文章的受控词表和社会标签,受控词表选用了PubMed的医学主题词表Mesh,社会标签选择了Connotea网站,两者均有45个文档被索引。结果显示540个Cormotea标签词中有11%与Mesh相匹配。通过对社会标签和词表的比较分析,既可以发现标签词的一些特点,如社会标签词的分布符合长尾理论等,也可以为下一步标签和词表之间的映射做前期准备。但需要引起注意的是选取不同的社会标签系统和不同的词表进行比较,比较的结果可能会有一些出入。如CiteULike系统的标签词可以包括字母、数字、连字符和下划线,但是不可以包括空格。这样对英文短语的 标签词如social tagging,就只能处理成socialtagging或者是social-tagging,在进行词汇匹配时,这一点要特别注意。也就是说对数据处理的方法不同,比较结果可能会出现偏差。但总的来说,用户的社会标签词与受控词表之间的匹配度较低,用户比较倾向于使用自由的、符合自己语言习惯的词语来标注资源。
2.2.2社会标签与词表的映射研究 经历了社会标签和词表的比较研究后,对社会标签与传统知识组织体系的融合进入了正式的实践阶段。很多研究者都从理论上认为社会标签可以和词表进行融合,词表可以从社会标签中得到新词解决词表的更新问题,而将两者关联的最直接方法就是建立社会标签与词表之间的映射,但对此问题的研究一直停留在理论阶段。2009年,美国肯塔基大学的Kwan Yi和Lois Mai Chan进行了一项探索性研究,用映射的方法将社会标签和国会图书馆的主题词表相连接。目的是想通过国会图书馆主题词表(LCSH)为社会标签带来一定的等级结构关系,研究基于词汇匹配的方法来连接社会标签这种用户词汇和LCSH这种受控词汇。社会标签的数据样本来自于Delicious网站,他们将LCSH转化成树状结构,成为LCSH树,仔细检查社会标签词的特点,用定量的方法检查社会标签词和主题词之间的重叠度,然后将标签词分布到LCSH树上,实现连接。实验的结果显示匹配主题词的标签大约占标签样本总数的三分之二,剩下标签中10%存在潜在的匹配可能性。此研究有助于有效检索被标注的网络资源,并且可以基于这两种词汇,整合多个社会标签系统和书目数据库等。这是对社会标签和词表之间进行关联的第一次定量化尝试,对日后进一步的研究有着重要的指导意义。
2.2.3社会标签与分类表的研究进展 社会标签的非受控性使其具有扁平化结构的特征,而分类表存在着丰富的等级关系和相关关系,因此从分类表中抽取词与词之间的关系来补充和强化社会标签,将更有利于用户对社会标签的组织,加强社会标签在异质系统中的交互能力以及提高用户对社会标签的检索效率。2007年9月1日启动的EnTag(Enhanced Tagging for Discovery)项目就在这方面进行了尝试。EnTag项目是由设在英国巴斯大学的英国图书馆网络工程事物所(UKLON,UK Office for Library Networking)领导的,格拉摩根大学、英国科学与科技设施委员会(Science and Technology Facilities Coundl,STFC)、英国免费教育和科技研究信息门户Intute、OCLC研究办公室等合作展开的。其目标是研究在仓储和数字藏品背景下,结合受控与folksonomy的方法来达到语义互操作的效果。具体目标包括:①只使用社会标签和使用社会标签结合受控词表两种情况下,对用户索引面的研究,细分为对读者进行的标注和著者进行的标注这两种不同情况研究;②在检索时,只使用社会标签和使用社会标签结合受控词表的检索效果比较研究。
笔者认为EnTag项目是一个将社会标签和知识组织体系进行融合的成功尝试,因为对社会标签进行组织管理的一个最大问题就是标签词不受控,如果没有有效的组织和检索方法,只会产生更多的信息垃圾,并且会与传统知识组织体系相分离,不能在异质系统之间进行交流。从受控词表中抽取规范的标签词,不仅可以增强标签词的规范性,还可以为用户提供更多的检索入口,有利于用户将来的检索需要。并且,用户可以根据规范词减少标签词诸如单词拼写、大小写等问题的出现。但由于此项目是一个试验项目,项目本身的试验数据量很小,如Intute演示平台的测试者是28名学生,而STFC演示平台的测试者是10名研究人员,因此项目的结论还有待于进一步的分析和验证。另外,笔者利用Intute平台进行了标注,感觉界面的设计还不够友好,简单标注界面和增强的标注界面容易让用户产生混乱,笔者建议可以用不同的颜色或者字号进行两个界面的区别。
2.2.4社会标签与分面分类法的研究进展分面分类理论不仅可以应用于对图书的分类,还可以应用在社会标签中。将标签词进行分面分类,可以实现标签的多维度浏览和检索。在这方面的进展中,信息建筑师Emanuele Quintarelli、Andrea Resmini和Luca Rosati提出了构建一个位于自上而下和自下而上组织结构之间的中间结构,使标签既具有等级结构,又具有分面的属性,实现用户的多维浏览、导航和检索。他们选择了分类研究组(Classification Research Group,CRG)的分面理论,进行了FaceTag项目的研究,该项目定义了资源类型、主题、人员、目的、语言和出版时间6个分面。FaceTag的最大特点是实现了检索和浏览的无缝化连接,既可以在检索的时候看到资源内容,也可以在浏览的时候,减少其分面,实现缩检。FaceTag提供了一个多维的、语义密集的标注空间,是将分面分类应用于社会标签的一个探索性尝试;但是系统原型并没有对外开放,也没有相应的试验数据,因此对其应用性和组织效率难以进行准确的评价。
3 总结与展望
以上通过对社会标签在应用领域和知识组织体系领域的进展,进一步了解了其作为一种新的信息组织方式所带来的深刻变化。在应用领域,社会标签将进一步扩大其影响,使更多的用户熟悉和使用它。社会标签与知识组织体系的融合可以总结为三种模式:①社会标签与传统词表进行映射,即直接用映射的方法将两者进行关联,目前来说,映射的方法都是先将词表中的词组织成树状结构,然后再以字符匹配的方法进行映射;②社会标签向传统的分类表中抽取词汇之间的上下类关系;③将分面分类的方法应用移植到社会标签上,达到对标签词的组织和呈现。
随着Web2.0的深入发展,对社会标签的研究也将继续的深入和持续。作为一种新的知识组织方法,社会标签必将以其社会性、广泛性和易操作性得到广大用户的喜爱和关注,其在各个应用领域的研究深度和广度也将进一步加强。但社会标签缺乏语义关系以及自身存在的一词多义等问题并没有很好的解决,所以今后这些问题仍将是研究的重点和难点。