[摘要]重点研究基于Folksonomy的数字资源系统的用户的共性,提出利用用户标签对用户分类的方法,并通过对Flikcr(闪烁照片网)的实证研究,证明通过标签对用户分类的可行性和实用性,为兴趣推送和进一步研究奠定基础。
[关键词]Folksonomy 标签 用户分类
[分类号]G202 TP391
1 前言
以人为中心的Web2.0时代的到来,使互联网用户由被动转为主动,成为信息发布者和接受者的一体。以del.ieio.us、Flickr为代表的基于folksonomy的数字资源系统应运而生,形成了一种新的网络信息资源的组织检索方式。通过用户标签对用户的偏好进行研究分类以及兴趣推送,能够为用户提供多渠道、全方位的信息,更有利于folksonomy的网站的发展。
然而,目前国内对folksonomy的研究着重于其国内外发展现状、概念、优劣势、发展前景以及与现有信息组织模式的结合应用分析等方面,对folksonomy的标签以及用户偏好鲜有研究。在folksonomy用户偏好研究方面,只有王翠英在《基于Folksonomy的用户偏好研究进展》一文中将用户分成单兴趣用户和多兴趣用户,分别构建适用的兴趣挖掘机制及对用户偏好的应用,但主要是从用户个体进行分析,且没有具体操作过程。
国外对folksonomy的研究无论理论还是应用上都明显领先于国内。在起源方面,国外学者倾向于从社会化站点的角度研究folksonomy,并以存在的系统为研究对象;在研究内容上,Adam Mathes指出了folksonomy系统的存在对个人和社区的重大意义;Christopher H.Brooks和Nancy Montanezt对博客搜索引擎Technorati的标签做了定量分析,发现了标签对用户分类的作用;Marieke Guy也对标签做了定量分析并提供了标签的可视化工具,指出了标签的长尾分布。
综上所述,folksonomy是目前越来越受关注的一个领域,理论方面的研究比较多,但也不是很完善,定量研究方面的内容比较少。本文主要从定量的角度研究如何利用folksonomy标签对兴趣相似的用户进行分类,提出了通过定量分析标签来研究用户共性的思想,给出了基于标签进行用户分类的具体方法和操作流程,并以Fliekr为例,对本文提出的用户分类方法进行了实证研究。
2 用户分类的思路
Folksonomy是一种以标签为目的的“自下而上的社会化分类”信息组织方法。标签是folksonomy最核心的内容,它是一种描述性的非结构化元数据,由用户根据自己的理解和喜好自由添加,不受任何词表的约束,标签从某些方面代表了用户的兴趣所在,所以依据标签对用户进行分类,然后对用户进行兴趣推荐是十分可行的。
用户分类的目的是把兴趣相似的用户分为一类,方便对用户进行兴趣推荐。为了不增加用户的负担,研究从系统的角度出发收集用户的标签。标签符合负责分布,即不同用户使用了很多相同的标签,表明这些用户在兴趣上有一定的相似性。相同标签的个数越多,表明这两个用户的兴趣越相近。
因此,根据标签进行用户分类的基本思路是:首先确定用户之间是否使用了相同的标签,再确定相同标签的数量及各个标签的使用次数。在实证研究中,由于收集标签的使用次数比较困难,故在抽取用户标签时直接抽取使用次数最多的标签(每个用户排名前10的标签)。
3 FIickr的用户分类过程
3.1 Folksonomy数字资源系统的选取
实证研究中数字资源系统的选取必须满足如下要求:①该系统能够提取每个用户的标签;②该系统必须支持群组,以便分类结果的验证;③该系统的访问量要足够大。根据以上要求对基于folksonomy的网站进行对比分析,排除不支持群组的和无法提取具体用户标签的,只有Fliekr满足要求。它是目前比较流行的一个folksonomy数字资源系统,2009年上榜美国《时代》周刊评选的50个最佳网站,2008年11月份达到6400万的独立用户,而且它可以提取每个用户的标签数据,也支持群组,可以帮助检验分组效果,所以,笔者最后选择Flickr作为实证研究对象。
3.2 Flickr中用户和标签的抽取
考虑到最后要借助群组对分类结果进行检验,所以抽取用户之前,先抽取了一些群组,然后从每个群组中抽取部分用户,这样有利于对分类结果的验证。
首先是群组抽取,主要采取两种方法:①从热门标签中集中选择最热门的标签作为检索词去搜索社群,然后从搜索结果中随机选择;②从网站的推荐群组中选择。这两个方法抽取群组的时候,都要满足一个先决条件:群组的成员要多,至少超过10个,资源数量也比较多。按照这两个方法,笔者从Fliekr中抽取了10个群组,然后按0到9编号,下面是前5个群组的名字及其网址:
群组0:Motocross(http:/www.省略/groups/motoz/)
群组1:Nikon D700 UNCENSORED!(http://www。flickr.com/groups/d700/)
群组2:Your cartoons(http://www.省略/groups/76087665@N00/)
群组3:European Vacation(http://www.省略/gmups/eumvaeation/)
群组4:CHRISTMAS WORLDWIDE Fliekr’s#1Xmas Group(http://www.省略/groups/xmas2005/)……
其次是抽取用户,抽取方法采用重要性加随机抽取。Hickr对每个群组都给出5个贡献最大的用户,抽取这5个用户,然后按照显示顺序随机再抽取5个,对于用户标签是非英语的或标签少于10个的用户予以删除,再重新抽取。
最后是抽取用户标签,本文选择该用户使用次数最多的10个标签。
下面是一个具体的用户及标签的抽取样本,限于篇幅,本文以群组8的前5个用户为例:
群组8:Do More?ror Pets Sponsored by Purina?Pro Plan?(http://www.省略/groups/domore/)
用户80:llanniell(http://www.省略/pho-tos/32834911@N08/tags/)
标签:phipps,flowers,maocro,winter,snow,sky,dogs,canon,birds,blue
用户81:richvYYY(http://www.省略/photos/ riehyyy/tags/)
标签:animal,animals,animales,bull.bulldog,bully,dog,puppy,diosa,perra
用户82:Foto Phinagler(http://www.省略/photos/46644938@N07/tags/)
标签:dogs,gloversville,labs,trees,urban,5bestdogs,winter,statues,eairnterriers,ehoeolatelabs
用户83:Nothin’But Moose and Slobber(http://www.省略/photos/31488876@N03/tags/)
标签:flower,flowers,dog,garden,lab,boydog,close-up,puppy,yellowlab,yellowdog
用户84:jati2010(http://www.省略/photos/48414337@N07/tags/)
标签:flowers,dogs,sprang,roses,morning,nature,flower,dog,birds,landscape
3.3 具体分类过程
根据上一节中收集的100个用户以及排名最靠前的1000个标签对用户进行大致的分类。将使用相同标签的用户分为一组,但这样会存在相似度高低的问题,具体分组要看系统的实际需求。粒度越大,用户的兴趣的相似度越高,推荐的效果就越好,但会造成群组成员稀少,违背寻找用户共性这一分类的初衷。粒度越小,用户的兴趣相似性越低,兴趣推荐会给用户带来大量的“垃圾信息”,影响用户体验,所以分组的粒度要视系统具体分析。由于抽取的都是用户最靠前的lO个标签,是代表用户最感兴趣的,作为一篇研究性论文,本文对相似度从低到高都进行了分析。
首先把收集的用户以及标签按用户编号导人数据库,表名为userandtag,用户的编号是0~99(用户n0~n9是从一个群组中抽取的,0≤n≤9),如图l所示:
分类的具体实现分为三个步骤,首先是确定任意两个用户之间的相似度,然后把任意两个用户之间的相似度从0一直到最高统计出来(见图3),最后是确定将两个相关性用户联系起来的标签,并将其他和这个标签相同的用户加入到这一类中。最终的用户分类结果是(限于篇幅,笔者只列出每个聚合度的一部分用户)。
聚合度为1的有:
(0,1,2,4,7,3,5),(0,31),(1,5),(1,9),(2,26,47,73),(2,38,74,92),(19,20,23,68,25,90),(19,25,90,20,23,68),(20,22,24,28),(20,28,22,25),(…………)。
聚合度为2的有:
(2,3),(3,4),(8,12),(10,II,12,19),(12,27),(12,36,27,30,38),(30,76,48,51,80),(30,80),(30,94),(…………)。
聚合度为3的有:
(11,19),(30,31),(49,69,64),(50,51,59),(51,59),(65,84),(80,84),(83,84)。
聚合度为4的有:(30,39),(31,37)。
聚合度为5的有:(49,64)。
从以上的结果得知:随着聚合度的增高,用户类似的组数越来越少。这也表示用户的兴趣是多种多样的,大部分兴趣都相同的用户比较少。
4 结果和验证
相似度分类的结果呈现倒金字塔型,为了分析方便笔者从金字塔的底部人手。聚合度为5的一组是(49,64),他们的标签如图4所示:
这两个用户的前10个标签中有5个是相同的(autumn,leaves,trees,nature,park),说明两用户的兴趣有很大的相似度。而这两个用户并不是抽取于一个群组,查看两个用户发现用户49加入了48个群组,其中10个与自然景色有关,而用户64本来就是nature群组的主要贡献者,加入的48个群组有8个与自然景观相关。这些说明这两个用户的兴趣相似度很高,也说明分类的结果并不一定与抽取的群组一致,而是更注重依据用户最明显的兴趣进行分类。
聚合度为3的用户组是(49,69,64),他们的标签如图5所示:
他们重复的标签为autumn、trees、nature。用户69和用户64来自同一个群组,兴趣上本来就有一定的相似性。从排名靠前的标签看,他们确实对自然景色比较感兴趣,而用户49来自其他群组,上文提到他加入的48个群组中有10个与自然景色有关,恰好只有他的来源群组是与圣诞相关的,表明其对自然景色的兴趣明显比圣诞节大,与用户64和69的兴趣是很相近的。这也说明按照标签对用户分类会取得比较好的效果,能够把兴趣相近的用户分为一类。
再看聚合度为2的用户组,选择成员较多的一组(10,11,12,19),其标签如图6所示:
这四个用户因为标签d700、nikon而聚在一起,这和他们本来就是从一个群组中抽取的相吻合,说明他们都对nikon这一数码产品感兴趣,并且兴趣很浓厚。
同样,聚合度为1的用户组大多都是来自同一群组,这也和本文当初优先抽取对群组有突出贡献的用户相吻合。
总的来说,根据排名靠前的标签对用户进行分类可以将用户按照较为明显的兴趣进行分类。由于标签是经过长时间的积累形成的,所以这也是更倾向与针对用户的中长期兴趣的一种分类。
5 结语
本文利用基于folksonomy的流行网站――Flickr中的用户及标签实证研究了利用标签对用户进行分类的方法,研究结果表明利用标签能对用户进行较好的分类,使同一类中的用户在兴趣上具有较大的相似性,有了用户群组就可以根据群组对用户进行兴趣推荐,也方便用户更好地发现和利用资源。
在研究中也发现一些问题或需要改进的地方,主要为:①没有对标签进行预处理,如提取词根、统一单复数;②没有考虑同义词、多义词等情况;③只考虑了标签的共现,而没有从标签的相对共现率去定量的研究。以上这些问题都会对用户的分类产生一定影响。