数据治理:提升教育数据质量的方法和途径
【摘 要】 随着互联网和信息技术的发展,数据成为关乎社会和各行各业发展前景的重要资产。如何对数据进行有效分析和利用是当前亟须解决的问题,“数据治理”应运而生。随着教育信息化建设的推进,教育领域也积累了海量数据,数据质量管理和治理的需求迫切。为了在教育信息化领域普及数据治理的概念,介绍教育数据治理的做法,本研究通过文献研究和案例研究的方法分析了政府、医疗健康和金融领域数据治理的成功经验,总结归纳出数据治理的一般方法和途径。进而针对教育数据治理过程中面临的问题提出相应的解决建议,包括:设置教育数据治理的组织机构,制定和完善数据标准,推进不同层次和维度的数据共享,落实和健全数据隐私保护机制,建设数据治理的技术平台。最后,以两个具体的案例介绍了教育领域数据治理的具体做法,以期对今后的教育数据质量管理和治理工作提供参考。
【关键词】 数据治理;大数据;数据质量;教育信息化;教育数据;质量管理;数据标准;组织架构
【中图分类号】 G420 【文献标识码】 A 【文章编号】 1009-458x(2018)8-0045-09
引言
在信息技术和互联网高度发展的今天,每天都有海量的数据产生,人类社会已经进入大数据时代。各个行业领域都拥有数量庞大的数据,作为新型的资源,大数据具有多样性、容量大、高速快、价值高的特点(申孟宜, 等, 2014)。以数据为基础的决策显著地提升了组织的产出和生产率(Watson, 2011)。与传统的数据集相比,大数据不仅包含结构化数据,还包含海量的半结构化以及非结构化数据。如何治理日益庞大的数据集,并从中获取对人类社会发展有用的信息是当前急需解决的问题。为了解决这个问题,“数据治理”得到了各行各业的重视,在通信、金融、银行、医疗和电子政务等领域取得了较大进展,形成了一些行之有效的方法和工具。
同其他行业一样,大数据技术在教育行业的普及和应用推动了数据治理需求的产生。各种教育信息化平台中积累的数据呈指数倍增长,对有效地获取、存储、分析和利用数据的需求越来越强烈。教育领域对数据的管理仍没有规范的治理准则;无论是机构内、机构间,还是区域层级,均未能够对数据进行有效的应用(许晓东, 等, 2015)。数据质量管理一直是教育信息化中的薄弱环节。如何科学使用数据、盘活数据资产、发挥数据价值?数据治理或许是一剂良方。然而,当前关于教育数据治理的研究还很少,主要集中在个别高校对其信息管理系统的数据治理,或者是高校图书馆的数据治理,缺少全局视野和更高层次的思考。
本研究采用文献研究和案例分析等研究方法,以国内外权威期刊上关于大数据、数据治理的文献为来源,明确大数据、教育数据、数据治理等相关概念。同时,借鉴电子政务数据、企业运营数据和医疗健康数据等领域的治理成果,结合教育大数据的特征和教育领域内的现实问题加以讨论,梳理出教育数据治理的一般方法和途径。希望本研究能够对教育数据管理和治理工作有所启发,并引起学术界更多的关注。
一、数据治理的概念及实践
(一)数据治理的概念
数据治理(Data Governance)是特定的组织机构用来管理数据的过程和方法(Educase, 2017),以及与之对应的依托于特定工具和平台的实践。它并非一个全新概念,关于数据治理的相关理论和实践在大型数据库广泛应用的时代就已经出现。只是大数据时代,數据量和复杂度有了很大的变化,对数据质量的需求也被提到了一个全新的高度。美国全球数据管理协会(DAMA)认为,数据治理是对数据资产管理行使权利和控制的活动的集合(DAMA, 2012)。桑尼尔·索雷斯(2014)提出,数据治理是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策;沈建苗(2007)认为,数据治理是企业的责任,需要统一的解决方案和治理模型来保护及共享不同层面的数据;张一鸣(2012)从标准体系、业务范围、控制范围、技术支持范围等角度对数据治理概念进行分析(如表1所示)。
表1 数据治理的不同维度
[维度解释标准体系数据治理是一种标准体系,通过数据组织、数据管控实现数据标准化业务范围数据治理就是要对数据的产生、处理、使用进行监督管理,以满足数据和业务需要相适应控制范围数据治理必须对治理人员、治理流程以及治理系统进行整体设计技术支持范围 数据治理需要前端、后端和终端等各个环节的技术支撑]
我们常说的数据管理则是一个更为宽泛的定义,它涉及任何时间采集和应用数据的可重复流程(Harper, 2017)。DAMA认为,数据管理是企业对数据生命周期进行管理的体系、策略、实践和过程。该机构发布的《数据管理知识手册(DMBOK)》明确指出,数据治理是数据管理的一部分(DAMA, 2014)。软件工程领域的权威——CMMI研究院在其发布的数据管理成熟度模型(DMM)中也将数据治理作为六大数据管理业务领域之一(CMMI, 2016)。
综上所述,数据治理是一个关于数据管理的综合实践领域,它涵盖了管理体系、标准体系、技术体系三大组成部分。从管理角度来看,数据治理必须建设完善的数据管理组织机构,制定科学合理的章程,确保数据的产生、处理、使用和销毁都有专业人员监管;从标准化的角度来看,数据治理必须制定规范的标准体系,使得数据的存储、使用、生命周期管理都能做到统一和规范,避免机构内和机构间的差异;从技术角度来看,数据治理必须以信息技术为基础,通过数据库和信息系统的完善使得数据的质量保持稳定,数据的价值得以充分发掘。
(二)先发领域的数据治理研究和实践
国内不同行业关于数据治理的研究和实践有很大差异。起步较早的行业已经取得显著的进展。例如,电子政务领域在如何进行数据治理以强化服务管理、推动社会发展方面有较多的研究。对于政府而言,数据是公共服务创新和策略优化的客观依据。数据治理工作可以帮助政府挖掘大数据中隐含的深层次信息,形成基于大数据的产业链和价值链(范灵俊, 等, 2016)。目前,电子政务涉及的管理数据来源分散、缺乏共享标准和规范接口。李文彬等(2016)认为改变这种局面,应在以下方面提升政府数据治理能力:转变治理理念,增强大数据意识;整合数据信息,建设公共大数据平台;完善制度保障,构建大数据法律体系;强化技术研发,掌握大数据核心技术;重视人才培养,优化大数据培养机制。陈真勇等(2014)提出了一种数据治理的分层互联框架,将治理工作划分为数据存储层、数据转换层、数据互联层和数据共享层四个层次,用于解决智慧城市大数据的共享和融合问题。国外的一些政府部门在局部领域也已经部署了一些数据治理工具,如新加坡政府就部署了OneService一站式治理平台,通过信息汇聚提升社区服务质量。