基于《中国图书馆分类法》的用户兴趣建模方法:中国图书馆分类法

  〔摘要〕提出一种基于《中国图书馆分类法》的用户兴趣建模方法。通过《中国图书馆分类法》分类号确定用户初始兴趣模型,使用《中图分类主题词表》中词汇描述用户兴趣主题。对于用户模型的学习,提出一种通用的方法,将各种反馈信息融合统一。在上述思想的基础上,开发出一个科技文献推荐系统,使用户在尽可能少的参与下,完成用户模型的建立、学习和更新。
  〔关键词〕信息推送用户兴趣模型个性化
  〔分类号〕G250.7
  
  User Interest Modeling Based On Chinese Library Classification
  Ma Haibing1Wang Lancheng4
  Shanghai Branch, Nanjing Political Institute, Shanghai200433
  Xiao Hui2
  Ningbo Instiute of Technology , Zhejiang University , Ningbo 315100
  Li Ronglu3
  Autodesk Inc. Shanghai, Shanghai200001
  
  〔Abstract〕This paper proposes a user modeling method based on Chinese Library Classification (CLC). The initial user model is defined by classification number of CLC, and the subject terms of CLC is used to describe user interests. It also puts forward a universal frame which can combine all kinds of feedback information for the user model to learn. Based on these ideas, it develops a science document recommend system, where user model can be built, learn and update as few participations of the users as possible.
  〔Keywords〕information recommending systemuser interest modelpersonalization
  
  
  1引言
  
  今天,互联网技术发展迅速,网络信息呈指数增长,但浩瀚如海的网上资源往往导致“信息过载”和“信息迷向”。传统的搜索引擎满足了用户的信息查询需求,但它不具有智能性,不能学习用户的兴趣。具有特定兴趣,信息需求相对稳定的用户,只能不断在网上反复查询相同的内容。正是在这样的需求驱动下,信息推送技术得到了长足的发展。如果把信息检索看作是一种“人找信息”的信息服务形态,那信息推送就是一种“信息找人”的信息服务形态,即实现信息的个性化推荐服务。
  个性化推荐技术的关键是用户兴趣模型的建立和学习。对于用户兴趣模型的建立,多数信息推送系统是通过让用户主动地输入一系列关键词,给每个关键词分配合适的权值来实现的。但是,用户常常找不到恰当的关键词来描述自己的兴趣,更不用说合适的权值了,而且词语的多义现象和同义现象也会导致一些不正确的信息被推送过来。对于用户兴趣
  模型的学习和调整,有的文献通过显式反馈实现[1-2],如将推送信息分为非常感兴趣、比较感兴趣、不感兴趣、完全不感兴趣等一些离散的等级或一些离散的数值,让用户进行评价;也有一些系统通过监视用户的行为来实现[3-5],如:浏览时间、保存、打印操作等,为用户模型的学习和调整提供依据,这类信息被称为隐式反馈信息。显式反馈信息比较准确,但是增加了用户的负担。隐式反馈信息减轻了用户的负担,但这类信息往往不够准确,不一定能够反映用户真实的兴趣需求。
  针对这些问题,笔者提出了一种基于《中国图书馆分类法》(以下简称《中图法》)的用户兴趣模型:通过《中图法》分类号建立初始用户兴趣模型;利用《中国分类主题词表》中的词汇来描述用户的兴趣主题,解决词语多义问题和同义问题;将用户反馈信息进行分类,尽量利用用户浏览时的行为信息,使用户在尽可能少的参与下,完成兴趣模型的学习和更新。
  
  2用户兴趣模型描述
  
  2.1用户兴趣模型的表示
  用户兴趣模型指的是从用户信息需求的提交到注销这段时间内,对用户某一兴趣需求的一体化描述,包括用户兴趣模型随着需求调整进行动态更新的过程。用户兴趣模型可形式化描述为一个三元组P:P=(I,F,ψ)。其中,
  
  
  
  这里,I为用户兴趣在学习调整过程中产生的全部状态集;F为系统为用户采集到的全部反馈信息集,其作用是驱动学习过程;ψ表示用户兴趣的学习函数。不难看出:I(0)为用户兴趣的初始状态;I(i)为经过i次学习调整后的用户兴趣;F(i)表示对系统第i次反馈的用以调整I(i+1)的评价信息;而{I(1),∧,I(n)}则表示用户兴趣的终结状态集。
  2.2现有用户模型的构造方法
  用户兴趣模型的构造可以依据关键词集和兴趣文档集,这种方式通常需要用户积极参与(或是直接提交兴趣信息,或是间接反馈兴趣评价),推送系统服务器端利用信息抽取技术和机器学习方法从中获取当前用户兴趣的特征信息,以使得该用户兴趣模型可以与待推送的新信息之间进行相关度计算。通过该方式获取用户兴趣后,对用户兴趣模型的更新和维护在很大程度上可以借助对新信息的处理技术,在理论上可以依据信息抽取领域、机器学习领域和信息检索领域中的方法和技术,所以在实践上这种构造用户兴趣模型的技术也是可行的。应用本文技术实现的科技文献推送系统就是依据这一方法进行设计和实现的。
  还有一种方法,它不需要用户做任何事情来描述自己的信息需求,而是由系统根据用户访问资源的历史记录自动进行分析。近年来,出现了一些以用户兴趣为核心的电子商务站点,它们通常是从网站经营的角度出发,分析大多数用户在网站中的浏览路径,根据用户对页面的访问次序、访问频度和访问时间等信息,动态调整页面结构以更好地满足访问者的需求。其中,对服务器端Web日志的分析是得到用户潜在需求兴趣的主要依据。但该方法或是将用户看作是单个的兴趣载体,或是把所有用户看作一个整体不做区别地进行处理。因此这种方法不适合信息推送用的用户兴趣模型构造。
  
  3基于《中图法》的用户兴趣模型
  
  《中图法》是我国第一部集中了全国图书馆和信息部门的力量共同编制的一部综合性大型文献分类法。《中国分类主题词表》则收录了5万余条类目、21万条主题词及主题标题,包括哲学、社会科学和自然科学所有各个领域的学科和主题概念。例如:“TP391 信息处理(信息加工)”中,“TP391”是该类别的中图法分类号,“信息处理”和“信息加工”则是这个类别的主题词。选择《中图法》和《中国分类主题词表》,一方面可为信息推送提供规范的依据,更重要的是将其作为构造用户兴趣的初始模板,为用户兴趣模型的构建提供了参照依据,使得用户需求信息与系统资源之间能建立有效“联接”。而且,《中国分类主题词表》中的词具有单义性,非常适合描述用户的兴趣主题。
  3.1初始用户兴趣模型的构造
  初始用户兴趣模型通过一个《中图法》分类号来确定。当用户在首次登录时,要求用户提供能表征其兴趣主题的类别信息。用户依据《中图法》的分类体系,选择某一类别作为初始的兴趣类别,注册的类别不一定是《中图法》最底层的类别。在实际应用中,用户与兴趣之间是多对多关系,即一个用户可以拥有多个兴趣,一个兴趣可以被多个用户共同拥有。但对信息推送系统来讲,有意义的是兴趣而非用户,因此信息的推送是基于兴趣的。如果某一用户同时注册多个兴趣,系统应为其建立多个用户兴趣模型;也有可能不同的用户注册了相同的兴趣类别信息,即他们采用了相同的兴趣模板,系统将收集所有注册了该兴趣类的用户信息,并将其附带提供给该兴趣类的所有注册用户,以便具有相同兴趣的用户之间进行交流与学习。
  初始的用户兴趣模型I(0)可以表示为一个二元组:
  
  
  其中,N表示用户兴趣模型对应的《中图法》分类号,一旦确定后不允许改变;W表示用户兴趣特征,由Wt、Wp、Wu、Wl四部分组成;Wt表示N对应的主题词;Wp表示N对应类别的父类的主题词,一般只取两级父类的主题词,因为随着级别的增高,主题词与用户兴趣的相关性变得越来越小;Wu表示由用户手动添加到兴趣模型中的特征;Wl表示用户兴趣模型在经过i次学习和调整后新增的特征,在初始的用户兴趣模型I(0)中,还没有利用反馈信息对其进行刷新,因此Wl是一个空集。
  Wt、Wp、Wu、Wl都是一个二元组的集合,表示为{<ti,wi>,<t2,w2>,∧}其中ti表示一个特征,这个特征可能是一个字、词、短语、N-Gram项等;wi代表特征ti的权重,是一个[0,1]之间的值。Wt、Wp、Wu,Wl间不存在重复的特征,即对于ti来说,它们之间的交集为空。Wt、Wp、Wu中的特征不会随着用户兴趣模型的学习和调整而增加或减少,但是它们的权值可能会发生变化。而Wl中的特征及其权值会随着用户兴趣模型的学习和调整发生较大的变化。
  当Wt、Wp、Wu中的特征确定之后,需要为每个特征分配一个权重。对于Wt中的特征,设置每个特征的权值为a;对于Wu中的特征,设置每个特征的权值为b;对于Wp中的特征t,其权值为:
  (公式6)
  其中,l为主题词对应类别与《中图法》分类号N对应类别在《中图法》分类体系结构中相差的层数。通常a、b、c的值都设为1。
  3.2新信息的推送算法
  新信息的推送算法是基于向量空间模型的。向量空间模型用特征项及其相应权值来表征信息的语义,新信息和用户兴趣模型都表示为一个向量。在需要给用户推送新信息时,新信息和用户兴趣模型的相关程度是通过向量运算来描述的,一般使用向量之间的夹角余弦来计算它们的相似度。
  本文中,用户兴趣模型由一个《中图法》分类号N和一个兴趣特征列表W组成。将W表示为一个向量,就可以使用夹角余弦公式来计算用户兴趣模型和新信息的相似度。不过,我们希望在计算相似度的时候能够利用《中图法》分类号,因此对相似度计算方法进行了改进。设W(i)表示用户兴趣模型I(i)的兴趣特征列表,l为新信息对应类别与N对应类别在《中图法》分类体系结构中相差的层数,则文档d和用户兴趣模型I(i)的相似度计算公式为:
  (公式7)
  
  其中,α+β,k为一个常数,一般取值为1。
  3.3用户兴趣模型的更新
  用户兴趣模型要能够及时准确地反映用户的兴趣,除了在初始的建立阶段要全面考虑之外,还需要能够根据用户的浏览行为和兴趣变化进行动态的修改,这就需要充分利用用户的反馈信息。我们可以根据用户的反馈信息类型将兴趣模型分为两种:
  3.3.1基于显式反馈信息的模型现有的系统普遍采用“相关反馈”作为用户和系统交互的主要手段。给定一个评价标准,如:完全符合要求、相关、无关、完全无关,或给定一个评价数值,如:+2~-2,+2代表完全符合要求,-2代表完全无关。当用户查看推送过来的文档时,根据这些评价标准对文档做出评价,然后系统利用这种相关反馈信息实现对用户兴趣模型的学习和更新。其中最常用的更新方法是Salton和Buckley[3]所提出的公式:
  (公式8)
  
  其中,W(i)表示用户兴趣模型I(i)的兴趣特征,ej代表用户对文档dj的评价等级。这个方法使用简单,但增加了用户的负担,用户也很难准确地使用评价等级对推送的文档做出评价,而且不同的用户对评价等级有不同的认识,也会导致降低这种方法的性能。
  3.3.2基于隐式反馈信息的模型用户在浏览推送过来的文档时,可以通过跟踪记录用户的浏览行为,得到用户对文档感兴趣的程度,如:浏览时间、保存操作、打印操作等行为都是用户对文档是否感兴趣的一种反馈。本研究中,我们在服务器端建立了推送文档的收藏、管理功能,实现对用户浏览行为的跟踪和记录,从而更新和学习用户的兴趣模型。
  用户的浏览行为可以总结为以下5种:
  ●浏览次数。访问同一文档的次数越多,说明用户对该文档的内容越感兴趣。不过有些文档在浏览过程中重复出现时,不一定对应于用户要再次查看其中的内容,可能只是对应于诸如回退之类的操作,目的是为了另一个感兴趣的文档。
  ●浏览时间。对同一文档的关注越多,即停留时间越长,表明用户对该文档的兴趣也越大。同时,我们也规定了最大的时间阈值MaxDuration,以处理用户离开浏览状态却未关闭的情况。
  ●收藏操作。当用户对某一文档感兴趣,并且希望经常查看此文档的时候,用户可能会将文档加入收藏夹。
  ●保存或打印操作。用户一般只会保存感兴趣的东西,而保存或打印文档也往往是为了将文档最终保存下来,方便查看。
  ●查询操作。一般来说,用户在查询时输入的字符串或关键字,往往代表他所感兴趣的东西。
  设D是携带有反馈信息的文档集, dj∈D,vj代表dj的浏览次数,tj代表dj的浏览时间,ej代表用户对文档dj的评价等级,fv,ft,,fe分别为文档的浏览次数、浏览时间、评价等级的加权函数,W(i)表示用户兴趣模型I(i)的兴趣特征,则兴趣特征W(i)的更新公式为:
  
  (公式9)
  其中,ft和fv都是对数函数,fe是一个线性函数。如果文档dj的浏览次数、浏览时间、评价等级为0或空,这三个函数都返回一个常数。
  将特征类反馈信息折算为一个评价等级,公式9可以将所有反馈信息融合在同一个框架中。例如:可以给收藏、保存、打印了的文档一个分值最高的评价等级。查询操作比较特殊,这种反馈信息对应的不是一篇文档,而是一个或多个关键词。但是,同样可以将每个关键词看作一篇文档,它的浏览次数就是这个关键词的查询次数,它的浏览时间设置为一个常数。
  
  4基于《中图法》的科技文献推荐系统
  
  在基于《中图法》的用户兴趣模型的基础上,我们开发了一个科技文献推荐系统。系统推荐的对象是科技文献,主要服务于高校和科研院所的科研工作者。因为科技文献具有比较规范的格式,而且大部分文献都具有《中图法》分类号,所以非常适合于使用本文提出的方法。
  系统体系结构如图1所示。整个系统包括服务器端和客户端两大部分。服务器端的主要功能是收集文献,对收集到的文献进行索引,对全文数据库进行更新和维护等。同时,用户兴趣模型的更新也在服务器端定期集中完成,而不是在客户端实时地对用户兴趣模型进行更新。客户端的主要功能包括注册兴趣,修改和删除用户兴趣模型,接收、浏览系统发送的新文献,获取用户的反馈信息等。
  用户在使用系统之前,需要注册一个账户,输入自己的真实姓名、研究方向等个人信息。当用户登录系统后,就可以注册自己的兴趣了。系统提供了两种注册方式:一种是手动方式;另一种是自动方式。在手动方式中,用户依据《中图法》的分类体系,选择某一类别作为初始的兴趣类别。一个用户可以注册多个兴趣,如果兴趣之间重叠,那么选择这两个兴趣类别的父类作为兴趣类别。确定了兴趣的分类号之后,就可以将这个分类号所对应的主题词列出,然后用户从中选择相关的主题词作为描述用户兴趣的特征。在自动方式中,用户也可以先查询本地文献数据库,对查询结果文献进行相关反馈,然后调用用户兴趣模型更新算法,由系统为用户自动创建出一个兴趣模型。用户兴趣模型的《中图法》分类号来自于相关反馈文献,通过取这些文献的《中图法》分类号的最大交集得到。
  另一方面,系统使用网络爬虫技术对指定的资源进行抓取,将发现的新文献下载到本地服务上。下载下来的这些文献是多种格式的,需要使用格式转换和信息抽取模块将这些文献转换为统一的格式,并提取出文献中的标题、作者、摘要、《中图法》分类号等信息,再将这些信息保存到数据库中,对于标题和摘要信息还要建立全文索引。当服务器处于闲置状态时,或者在一段时间内的某一固定时刻,集中进行计算,将新到文献推送给用户。推送给用户的文献实际是文献的URL地址,当用户要浏览文献的时候,需要登陆系统,因此系统能够准确记录文献的浏览次数和浏览时间。同时,系统提供了文献的管理功能,能够收藏、打印、保存、删除文献,对文献进行相关反馈。有了这些信息,就可以使用公式9对用户的兴趣模型进行更新。随着新文献的不断推送,更多的反馈信息被记录下来,使用户兴趣模型能够更加准确地反映用户的兴趣需求。
  
  5应注意的问题
  
  上述基于《中图法》的用户兴趣建模方法在科技文献推送系统中的应用取得了较好的效果,但也存在一些问题。
  5.1反面隐式反馈信息的利用
  在用户兴趣模型的更新算法中,我们主要利用的是正面的隐式反馈信息,即对文献的评价是正面的。但是还有许多反面的反馈信息可以利用,例如推送给用户的文献,用户只看了标题和摘要后就删除掉了,这可能代表用户对这篇文献不感兴趣。这些信息可以作为用户兴趣模型学习的重要依据。
  5.2协作过滤算法的使用
  上述模型使用《中图法》分类号确定用户初始的兴趣类别,等于对用户的兴趣做了一个分类。如果多个用户模型具有相同的分类号,或分类号之间具有父子类关系,那么某个用户兴趣模型的特征信息以及该模型的一些反馈信息,对其他用户兴趣模型的学习将重要的具有参考作用。将协作过滤的思想应用于本文的方法和系统中,可以改善用户兴趣模型的学习算法。
  
  参考文献:
  [1]Balabanovic M, Shoham Y. Learning information retrieval agents: Experiments with automated Web browsing //Proceedings of AAAI Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments. Stanford: AAAI Press,1995:13-18.
  [2]Armstrong R, Freitag D, Joachims T, et al. WebWatcher: A learning apprentice for the world wide Web. //Proceedings of AAAI Spring Symposium on Information Gathering from Heterogenows, Distributed Environments. Stanford:AAAI Press,1995:6-12.
  [3]Salton G, Buckley C. Improving retrieval performance by relevance feedback. Journal of American Society for Information Science, 1990,41(4):288-297.
  [4]Joachims T, Mitchell T, Freitag D, et al. Webwatcher: Machine learning and hypertext // Morik K, Herrmann J. GI Fachgruppentreffen Maschinelles Lernen.University of Dortmund, 1995:145-149.
  [5]Letizia L H . An agent that assists Web browsing //Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, Montreal:Morgan Kanfmann, 1995:924-929.
  
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。