基于关键词的生物主题爬虫设计 关键词 频率 爬虫

  [摘要]详细介绍一种生物主题爬虫的设计及实现方案,通过优化初始种子模块、主题相关度分析模块、排序模块等四个模块的共同运行实现对网页信息的处理。用高效的主题爬虫取代传统搜索引擎中的普通爬虫,为实现更准确的信息采集提供良好基础。
  [关键词]主题爬虫 生物学 搜索引擎 关键词
  [分类号]TP393