1 引 言 在针对余弦向量度量法文本检索模型进行研究的过程中,发现目前经典的余弦向量度量法文本检索模型是以索引项之间相互独立为前提的,在现实应用中没有考虑用户对索引项要求不同和索引项相关性的情况。针对这一问题有些学者提出使用索引项相关性反馈技术进一步改进查询和文本的向量表达式以提高搜索的效率,但这些学者的研究在实际应用中也存在一定的局限性。比如提出将文本表示成图,使用随机游走的方式迭代得到索引项权值,一定程度克服了经典向量空间模型各索引项独立性假设的不足,提高了查询的效率,但该文献并没有很好地研究用户对索引项要求不同而对各索引项权值设置的情况。提出使用文本与查询的相关性反馈技术来调整索引项权值,但该文献并没有进一步研究索引项之间的相关性问题。而且查询表达式中索引项权值调整是依靠人工主观设定来进行的,权值的调整缺乏客观性依据。总体来看,目前余弦向量度量法文本检索模型中索引项权值设置的研究主要来源于经典算法且以各个索引项之间相互独立为假设前提,少数的研究对索引项相关性问题进行了探讨,但针对索引项相关性情况下权值的调整以人工主观给定为主,不能很好地从文本结构中提取索引项之间的相关性参数;另外,所进行的研究多数是假设用户对各索引项要求是没区别的,各索引项之间的关系不能得到很好体现,在用户对索引项有偏好的情况下检索结果不能很好地满足用户的需求。