国内科学数据相关研究进展分析:帕金森病科学研究进展

  [摘要]对我国科学数据相关研究文献统计以及科学数据建设历程进行分析,将我国科学数据研究进程划分为资源累积、数据库建设、数据共享和知识环境建设4个阶段,对各阶段的科研需求、技术背景、政策环境和涉及层面给予客观描述。分析科学数据相关研究进展的重要影响力和推动力,提出我国现阶段存在问题与不足以及未来重点关注方向。
  [关键词]科学数据科学数据库研究进展
  [分类号]G203
  
  1 引言
  
  科学数据作为信息时代一种最基本、影响面最宽的科技创新资源,具有显著的科技推动能力、投资引向价值、应用增值潜力和决策支持作用。我国是科学数据资源大国,也是科学数据管理欠完善的国家。相对于美国、英国、日本等发达国家,我国科学数据的研究工作起步较晚,但发展却比较迅速。本文试图从文献研究和历程回顾两种视角对我国科学数据相关研究进展情况与发展阶段、主要影响和推动因素等进行客观描述,提出现阶段我国科学数据发展与研究进程中存在的问题以及未来的重点关注方向。
  
  2 基于文献的研究进展分析
  
  以“科学数据”或“科学数据库”作为题名或者关键词进行检索,从CNKI中国期刊全文数据库中精确检索到1979-2008年的文献356篇;再以同样的检索词在维普中文科技期刊数据库中检索1989-2008年的文献,共得431篇。由于本次维普检索结果中的非相关文献较多,因此本文选取CNKI的检索结果作为研究对象,排除非相关文献后总计剩余255篇,经过阅读分析,按照文献的研究方向和发表年代分类列表见表1:
  从文献发表时间和数量来看:最早发表的年代为1982年;1995年之前仅有16篇相关文献,而2002-2008年,有相关文献144篇,占文献总量的56%,且呈高速递增趋势;分别以“科学数据”和“科学数据库”作为检索词在“CNKI学术趋势”中检索得到与此相关学术关注度走势图详见图1和图2。也可以看到,国内对“科学数据”的关注度在2003年达到一个较高的峰值之后略有回落,但总体仍呈快速上升趋势,并于2006年达到一个新的峰值;而对于“科学数据库”的关注度在1996-1997年之间达到了第一个峰值,在2002-2003年之间达到了第二个更高的峰值。
  
  从文献内容与研究方向来看(见表1):最早发表的一篇是对英联邦农业局科学数据库的介绍(林广信,1982年);1995年之前的16篇相关文献中,有15篇足资源建设与管理或数据库技术的简介类文献;1996―1997年,开始出现数据库建设及其应用类文献;从2002年开始,大量出现关于科学数据共享的文献,研究内容也广泛涉及到发达国家先进经验的研究与借鉴(孙枢,2002年;刘闯,2003年);机制体制、对策、政策法规、知识产权、共享平台建设规划、资源整合与开发和标准体系框架(徐枫,2003年);元数据(杨德婷等,2003年);共享支撑技术(李花安等,2006年);资源分类编码、数据安全等诸多方面。
  此外还出现了少量关于数据可视化、数据挖掘、数据分析等方面的文献,总计有11篇,其中最早的一篇为科学数据图显分析软件介绍(陈铁,1995年),其余多为计算机与网络技术专业文献。内容涉及可视化管理系统(王蓓蓓等,2004年)、数据仓库技术(樊明辉等,2004年)、基于独立分量分析的数据挖掘技术(聂琨坤等,2004年)、基于聚类算法的数据挖掘技术(李欣宇等,2006年)等,2008年出现的关于科学数据与科学文献的关联关系分析的文献(孙志茹等,2008年)是科学数据分析与利用当中的比较新的研究方向;另外,也有少量关于数据质量评价及绩效评估、科学数据应用与服务等类别的文献,分别有2篇和6篇。
  从涉及的学科与专业领域来看:相关研究文献分别占文献总量的51%和49%,大致持平;在涉及学科专业的相关研究中,地球科学(含气象科学)的文献数量为53篇,高居榜首,占到此类文献的42%;其他涉及比较多的专业领域有医药卫生27篇,农业15篇,另有少量关于机械、水利、材料、林业、资源环境、交通运输、生物信息学与生命科学、测绘科学等专业领域的文献。
  从论文作者所属机构和研究内容所涉及的地域范围来看,其中有23%的论文作者出自中国科学院(以下简称“中科院”),而涉及区域性科学数据建设与共享研究的仅占4%,其中包括广东、河北、湖南、山西、黑龙江及西部地区等。
  
  3 基于建设历程的研究阶段分析
  
  3.1 关于国内科学数据相关研究与建设历程回顾
  回顾我国科学数据研究与建设的历程,与上述文献分析结果吻合:1982年,中科院将“科学数据库及其信息工程”列入其后lO年重大基本建设项目,并于1986年被国家计委纳入国家重点建设计划;1995年为统一组织“中国国家计算机与网络设施(NCFC)”和“科学数据库及其信息系统”两大工程的建设,成立了“中科院计算机网络信息中心(CNIC)”;2001年底,为了促进气象科学数据的全社会共享,科技部将中国气象局作为科学数据共享的第一个试点,启动了基础性工作专项资金项目“气象科学数据共享试点”;2002年科技部启动“国家科学数据共享工程”,将数据资源建设和共享作为支持国家创新发展的战略工程,纳入到《2004-2010年国家科技基础条件平台建设纲要》中去,成为国家中长期科技发展规划的重要内容之一;2003年国家财政支持启动了包含科学数据共享平台在内的国家科技基础平台建设规划,并开始着手部署试点工作;2004年科技部开展的国家科技基础条件资源调查数据显示,在调查到2 459个数据库中,总量达4 971.18TB,共获得建库资金28.27亿元;2006年,以“信息社会的科学数据与知识”为主题,以促进世界范围的数据共享为目标的第20届国际科学数据委员会(CODATA)国际学术会议在北京召开,徐冠华部长在大会报告中表示,到2010年,中国要基本建成覆盖全面、结构合理的国家科学数据中心群及其共享服务网络体系,形成科学数据的良性汇交与更新机制,基本满足各部门对科学数据的需求。
  
  3.2 国内科学数据相关研究进展阶段的分析
  结合我国科学数据研究与建设的发展历程,对相关文献进行参阅与考证,可将国内科学数据研究与建设发展过程分为资源累积建设、数据库建设、数据共享、知识环境建设4个阶段,见表2。
  科学数据的资源累积阶段(20世纪80年代以前)。传统的、相对封闭的科学研究方式决定了所产生的科学数据也是零散、孤立、非系统的,科研活动产生的数据或数据集合多数由研究人员或研究团队自行拥有,管理和利用都处于比较低级的水平。
  科学数据库建设阶段(20世纪80年代后一2000年)。随着新型研究手段、计算技术、观测与传输技术的快速革新,科学数据产出和处理的时间大大缩 短,致使各项科研活动产生的科学数据量急剧增加,对科学数据管理和利用的要求也明显提高,国内部分研究机构和行业领域开始了科学数据库研究与建设的探索工作,如中科院于1982年启动了“中科院科学数据库”项目,经过20余年的发展,现已经成为国内信息量最大、服务层次最高的综合性科学数据系统。
  ?科学数据的共享阶段(2000年-2006年)。人类步入了知识经济时代,科学技术的发展明显呈现出大科学、定量化和注重过程研究等特点,也越来越依赖于系统的、高可信度的基本科学数据及其衍生的数据产品,系统性的科学数据建设与共享成为这一阶段的主要任务,国家层面的顶层设计和战略规划起到至关重要的作用,如2002年科技部启动的“国家科学数据共享工程”以及2003年启动的“国家基础条件平台建设”,在国内引发了科学数据共享研究的热潮。
  科学数据的知识环境建设阶段(2006年至今)。数据密集型、数据驱动型研究方式引发传统科学研究向信息化科学研究(e-Science)的变革,多学科、交叉学科的融合发展以及全球化、跨学科、大规模的科研合作,引发了更高层次、全球范围的信息需求。“泛在知识环境”。概念在国内的提出,也为科学数据的发展提供了方向,而网格技术则为实现不同地域分布的计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享和协同作业提供了可能。
  
  4 科学数据相关研究进展的动因分析
  
  纵观我国科学数据研究与建设发展历程,每一阶段的出现和进步均与当时的科研环境与需求、技术水平以及宏观政策环境密切相关,因此,一个国家的科技发展阶段和状况、计算机及信息技术水平、国家层面的顶层规划与政策环境等三个方面的因素,是科学数据研究与建设发展的主要影响因素;反之,国家层面科学数据建设与研究水平,也会对科学研究进展和信息技术水平提高起到帮助和促进作用。本文根据各种影响因素之间的关系制作了用以说明科学数据研究进展状况与其影响因素之间相互作用的关系如图3所示:
  首先,科学数据来源于科学研究,又服务于科学研究。科研活动的需求是促进科学数据产生、管理、应用的第一推动力,而对科学数据的有效保存、完善管理和充分利用也为支持更复杂的科学研究及科技创新提供了不可替代的基础资源;其次,先进的计算机技术与信息技术为科学数据的收集、管理、共享和分析利用提供了技术实现条件,海量科学数据的出现以及科研活动对科学数据管理与应用要求的提高,又进一步促进了当代计算机与信息技术的发展;再次,从科学数据累积管理到科学数据库建设,从科学数据库共享体系建设再到e―Science环境的构建,国家层面的规划部署、国家政策引导与推动对其发展起到至关重要甚至决定性的作用。
  
  5 我国现阶段科学数据研究与建设存在问题及未来重点关注方向
  
  5.1 存在问题分析
  通过相关文献分析可以看出,尽管我国科学数据相关研究与建设经历了20余年的快速发展,但现阶段仍存在如下问题:①从文献研究内容与方向来看,对于科学数据资源建设与共享的技术实现及体系构建等方面关注较多,而对于面向科研需求的科学数据有效开发利用等方面的关注不足;②从涉及的学科领域来看,某些学科领域(如地球科学)的科学数据研究与建设得到了很好的发展,而部分学科领域的科学数据研究建设尚未得到关注;③从涉及的地域范围来看,国家层面的科学数据研究建设有了比较快速的发展,而区域范围内的科学数据建设、共享和利用等发展不均衡,大部分区域科学数据建设与共享工作未能有效开展。
  通过对我国科学数据实际建设情况分析可以看出,国家层面的统筹规划与政策引导建设起到了十分火键的作用。现阶段,尽管科学数据已经从支撑科技活动的基础资源提升为支撑国家科技创新发展的宝贵资产和战略资源,但在具体的建设实践中仍然存在一些不足,如整体部署与规划不完善而造成的条块分割和重复建设,如我国国家层面两大科学数据共享体系(科技部的“科学数据共享工程”和中科院的“中国科学院科学数据”)之间的统一协调与分工合作问题;地方性、区域性大量基础科学数据还未能有效纳入国家统一的标准化、系统化管理,因而未能得到全面共享和有效的开发利用;对于科学数据可持续发展保障机制方面的研究与实践不足,导致某些学科领域和某些区域的科学数据研究与建设投入不足或投入产出成效不理想等问题。
  
  5.2 未来重点关注方向
  鉴于科研需求、技术水平与国家层面总体规划等宏观因素对科学数据研究与建设的重要影响和推动作用,结合前述文献研究和建设实践两个不同视角的分析结果,以美、英等发达国家在科学数据管理与应用方面的研究与建设经验为参照,从三个层面人手,提出我国未来科学数据研究进展的重点关注方向:
  关注科研需求,探讨怎样以更加科学的方式服务科研活动、工程活动甚至各种社会活动,尽最大可能发挥科学数据的科研价值、经济价值和社会价值,如:科学数据在各个学科领域的科学研究中的应用与开发;科学数据在教育、经济、环境和社会领域的应用与服务;科学数据在科学决策中的开发利用等。
  关注世界先进技术的发展态势,充分利用最新的网络技术、信息技术进行科学数据的管理、开发和利用,如:e-Science环境建设与网格技术;数据挖掘、集成、分析与可视化工具与技术;互操作技术;元数据、语义网和本体等知识组织技术;分布式数据处理和应用的理论、模型和方法等。
  关注宏观层面的战略规划,探讨科学数据发展的长期、有效、可持续的发展机制,如:可持续发展的数据源、数据标准和数据模型;可持续发展的科学数据管理、运作、监督与评价机制;未来的数据共享中心的角色和运作及其创新数据服务模式;国家级超大规模科学数据仓库及其数据服务能力建设;作为发展中国家加入全球科学数据共享以及国际间科学数据协作的探索等。
  说明:对科学数据研究来说,除文献成果之外,还有更为重要的数据实体、应用架构、规范与标准体系等建设成果,本文在选用CNKI相关文献作为研究对象的进行文献分析的同时,参看了国内部分科学数据共享体系的建设成果,结合国内科学数据库建设实际进展状况进行对比分析,以求与文献分析结果相互印证。