[摘要]学术文献具有鲜明的文体特征,且部分特征能够用于PDF格式网络中文学术文献的自动识别与检索。提取学术文献在特有表述、句子平均长度、中西文比例等方面存在的特征,用来识别PDF格式的中文学术文献,对Google通用搜索引擎的搜索结果进行重新排序。结果显示文体特征的运用能够在一定程度上提高网络PDF学术文献的检准率。
[关键词]网络学术文献 文体特征 PDF文件 信息检索
[分类号]G252.7
[摘要]学术文献具有鲜明的文体特征,且部分特征能够用于PDF格式网络中文学术文献的自动识别与检索。提取学术文献在特有表述、句子平均长度、中西文比例等方面存在的特征,用来识别PDF格式的中文学术文献,对Google通用搜索引擎的搜索结果进行重新排序。结果显示文体特征的运用能够在一定程度上提高网络PDF学术文献的检准率。
[关键词]网络学术文献 文体特征 PDF文件 信息检索
[分类号]G252.7