[摘要]在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出一种中文文本聚类方法:DKTC。该算法能自动产生簇的个数,且对“噪声”或异常数据不敏感,对数据的输入顺序不敏感,另外,与DBSCAN相比,该算法有更高的处理效率。实验表明,DKTC算法不仅能对中文文本进行聚类,且与传统DBSCN与K-means法相比,聚类效果都有一定程度的改善。
[关键词]文本聚类 聚类算法 中文信息处理
[分类号]TP391
1 引言
文本聚类是一种无指导的文本分类,由于该项技术能将大量信息组织成少数有意义的簇,从而达到协助人们更好地对大规模文本进行理解,同时也能作为一种有效的预处理步骤,为进一步的文本分析提供初步的语料结构,因此,文本聚类技术作为文本信息挖掘技术中的核心技术,越来越受到广大研究者的重视。