政府大数据数据处理综合解决方案

 政府大数据处理综合解决方案 数据质量的好坏决定了数据价值的高低。

 高质量的数据可以保证 数据应用、 数据服务的质量。

 高质量的数据已成为组织最具价值的资 产之一。

 交换、共享和开放数据,同样面临数据质量的问题,高质量的交 换、共享和开放数据不仅能保证数据应用和服务的价值, 还可以保障 和提升组织的公信力。交换、共享和开放政务数据,并保证数据的质 量,是组织面临的一个严肃课题。

 针对政务数据的数据质量和数据安全, 浪潮提出了一套基于政务 数据的交换、共享、开放的完整解决方案,功能包括数据检测、数据 清洗、数据加工、数据脱敏等。

 1. 数据检测 数据检测是按一定规则对数据质量的评估, 浪潮对政务数据的梳 理形成一套完整的数据元标准, 依据数据元标准规范可以自动的对大 部分数据字段做检测规则设定, 没有自动设定检测规则的字段可以由 人工设置,检测结果会以数据检测报告的形式输出。

 基于政务数据的特点和格式规范, 针对不同类型的数据, 会有不 同的检测规则。

 1.1. 数据标准 用于数据检测、数据清洗的数据标准来源于政务数据的数据元标 准,由浪潮梳理、总结、归纳出的数据元标准对数据元对应字段的长 度、格式、字符类型等字段标准做了定义。系统会根据政务数据元字 段标准规范,对待检测数据字段做智能分析和数据元匹配, 与标准数 据元匹配成功的待处理字段即可以按照数据元标准做检测、清洗等操 作,对于没有匹配成功的或不认可自动匹配的字段可以在系统自定义 设定检测规则。

 1 ?1 ?1• 字段类型标准 通过对政府大数据的各类数据字段的整理、 归纳,整理出主要的 数据字段类型及定义情况。

 中文字符 可以包含汉字 ( 中、国……等 )

 、字母字符( a-z,A-Z )

 和数字字符等 字母字符 特指字母字符( a-z,A-Z )

 数字字符 数字字符( 0 、 1 、 2 、 3 ……)

 数值 数值型 字母 + 数字 字母和数字字符 日期 日期型,包含年、月、日信息 时间 时间型,包含时、分、秒信息 字典 含有数据字典的字段

 综合 含有各类字符并具有一定格式的字段

 1 ?1 ?2• 字段格式标准 数据字段内容格式标准采用了数据元相关标准,对字段的类型、 长度、格式等通过字符予以标识,表示格式和示例如下。标准数据字 段目录详见附件。

 c 中文字符,可以包含汉字 ( 中、国……等 )

 、字母字彳 ( a-z,A-Z )和数字字符等 c12 固定 12 位字符(即 6 个汉字)长度的中文字符 C..12 最多为 12 位字符(即 6 个汉字)长度的中文字符 a 特指字母字符( a-z,A-Z )

 a3 固定长度的 3 位字母字符 a..3 最多为 3 位字母字符 n 数字字符( 0 、 1 、 2 、 3 ……)

 n3 固定长度的 3 位数字字符 n..3 最多为 3 位数字字符 n..5 , n2 数值型 , 小数点前最多为 5 位数字,小数点后保留 2 位数字, 总长度最多为 8 位数字字符 an 字母和数字字符 an3 固定长度的 3 位字母数字字符 an ..3 最多为 3 位字母数字字符

 d8 日期型,按年、月、日顺序全数字表示,格式为 8 位定长、 全数字表示( YYYYMM )

 D 年用 4 位数字表示,月、日各 用 2 位数字表示,彼此之间没有分隔符,如 2002 年 12 月 25 日,应表示为 20021225 t 时间型,按时、分、秒顺序全数字表示,格式为 6 位定长、 全数字表示( hhmmsS z 综合性,可含有各种字符,且具有一定的格式。

 1.1.3• 约束条件标准

 字段约束是对数据集字段间逻辑关系分析, 依据字段间的相互依 存关系、约束关系来检测字段内容的准确性。主要依存关系如下。

 导出 字段 A 可由字段 X 导出 归并 字段 A

 B ……可以归并为字段 X 条件 字段 A 满足甲条件时,字段 X 内容为一

 1.1.4• 数据目录标准 浪潮针对政务数据目录的梳理形成了一整套完整的标准体系, 结 合字段类型标准、格式标准、约束条件标准,形成数据目录标准,数 据目录标准中对其包含的数据字段的类型、 格式,数据字段之间的约 束条件进行预先定义,形成以数据目录为单位的格式和约束标准。

 在 对数据集进行检测时,如果可以建立数据集层面的匹配,则不仅可以 对数据字段做细致的检测,对数据的整体性也建立了检测依据。

 1 ?1 ?5• 敏感数据标准 针对数据安全性,浪潮制定了敏感数据标准,该标准包含敏感数 据的定义、敏感词库的定义、黑白名单的定义等。

 个人信息字段 涉及个人敏感信息的数据字段 法人信息字段 涉及企业敏感信息的数据字段 涉密信息字段 涉及隐私的数据字段 约束信息 由多字段可以推导出敏感数据的情况 敏感词库 含有敏感词库中内容的数据 黑名单 含有黑名单中内容的数据 白名单 含有白名单中内容的数据

 12 检测问题 1.2.1• 字段检测问题明细 F 面列出了不同类型的数据字段与可能检测出的数据质量问题 的对应情况

 中文字符 字母字符 数字字符 数 值 字 母 + 数 字 日期 时 间 字 典 综 合 空值 V V V V V V V V V 含非标准字符 V V V V V

 V 含空格 V V V V V

 V

 含换行符 V V V V V

 V 含非标准特殊字符 V V V V V

 V 字符长度超限 V V V V V

 V 值范围超限

  V V

 V V

  非字典项

 V

 不符合格式要求

 V

 V V

 V

 1.2.2• 约束检测问题明细 字段间的约束问题需要根据具体数据字段情况进行设定。

 如身份 证与性别、年龄、出生日期的导出关系等。具体的约束检测规则详见 附件。

 1.2.3• 整体检测问题明细 整体检测包括数据的完整性、一致性、时效性、唯一性等方面的 检测,数据整体检测以浪潮梳理的政务数据目录标准为依托, 辅以完 整性规范、一致性规范等标准。

 字段完整性问题 数据集是否含有某些关键字段 记录完整性问题 数据集记录是否完整 记录致性问题 记录中的值是否冲突,如合计项的值 字段致性问题 字段中的值是否冲突,如合计项的值 字段唯性问题 字段是否重复 记录唯性问题 对关键字段检测,是否含有重复记录

 时效性问题 不同数据集时效要求的评测 1.2.4• 敏感问题明细(安全性)

 基于数据安全性的检测,针对数据中含有的敏感信息进行检测 含个人敏感信息字段 涉及个人敏感信息的数据字段 含法人敏感信息字段 涉及企业敏感信息的数据字段 含涉密信息字段 涉及隐私的数据字段 含约束敏感字段 由多字段可以推导出敏感数据的情况 含敏感词 含有敏感词库中内容的数据 含黑名单数据 含有黑名单中内容的数据 含白名单数据 含有白名单中内容的数据

 1.3.检测方法 1.3.1• 依字段标准检测 首先对待检测字段做智能匹配,去匹配数据元标准中的标准数据 元,匹配成功后会依据匹配成功的数据元标准进行检测。

 1.3.2. 自定义字段检测 对于通过“依字段标准检测”没有匹配成功的或者匹配结果不满 意的字段可以修改或自定义字段格式标准, 通过修改或自定义的字段 格式标准进行检测。

 1.3.3. 依约束标准检测 在系统中会依据对政务数量的标准和规范, 设置一系列的数据字 段约束条件, 在完成待检测字段与数据元的匹配后, 会检测该字段是 否含有字段约束条件,并依

 据字段约束条件的相关规则进行检测。

 1.3.4. 自定义约束检测 对于通过 “依约束标准检测” 没有匹配成功的或者匹配结果不满 意的约束条件可以修改或自定义, 通过修改或自定义的约束条件标准 进行检测。

 1.3.5. 依数据目录标准检测(整体性检测)

 对于存在数据目标标准的数据集,如果完成数据集层面的匹配, 则可以依据完备的数据目录标准进行从数据字段细节, 到数据字段间 约束性,到数据整体性的完整检测流程。

 1.3.6. 自定义整体性检测 自定义整体性检测可以设置数据集整体性检测规则, 依据自定义 的整体性规则对数据集的整体性进行检测。

 1.4. 检测报告 对数据的检测结果会以报告的形式输入, 检测报告会详细的描述 检测中出现的问题以及问题类型,会对检测问题做统计和分析操作, 检测结果和分析结果会通过可视化图表等方式展示。

 同时,对于检测 出的问题, 可以通过清洗操作解决的会给出清洗建议, 存在安全隐患 的,会给出安全处理建议。

 1.4.1. 问题描述

 问题描述罗列出检测中出现的各种问题以及问题的数量。

 1.4.2. 问题分析 问题分析是对检测中的问题进行分析和统计, 并将分析和统计结 果以可视化的形式展现。

 1.4.3. 清洗建议 清洗建议是针对可以进行清洗的数据, 给出的清洗建议。

 清洗建 议中包括是否适合机器清洗、人工清洗、机器 + 人工清洗,包括适合 的清洗方法,具体的数据清洗方法会在下一章节中列出。

 1.4.4. 加工建议 加工建议是针对数据存在的整体性问题提出的加工建议, 加工建 议中包括是否适合机器加工、人工加工、机器 + 人工加工,包括适合 的加工方法,具体的数据加工方法在后面章节中列出。

 1.4.5. 脱敏建议 脱敏建议是针对存在敏感性的数据提出的脱敏建议, 具体的数据 脱敏方法在后面章节中列出。

 2. 数据清洗 现实数据一般含有噪声、格式错误、数值超限、不完整、不一致 等情况,数据清洗可以填补空缺数据、识别错误、消除噪声、纠正数 据中的不一致。数据清洗是基于数据检测的结果对数据质量做的提升 工作。

 数据清洗中很多方法并不能完全正确的修复数据, 所以一些数据 清洗方法只适用于准确性要求不高的数据。

 以下数据清洗方法中, 除 特别提到由人工处理的,其它方法均可以由系统实现。

 2.1. 空缺值处理 空缺值是指字段内容是空缺的,根据空缺内容字段的重要程度, 可以选择不同的清洗方式。

 2.1.1. 删除记录 即删除有空缺的记录。

 可在设定好规则后由机器处理, 情况包括:

 1 、 某条记录的某字段空缺时,删除该条记录; 2 、 某条记录的某几个字段同时空缺,删除该条记录; 3 、 某条记录空缺值超过 X 个时,删除该条记录; 4 、 某条记录空缺值超过总字段数的 Y% 时,删除该条记录。

 2.1.2. 人工填写 通常数据量较大的情况下, 此种方式并不适合, 在空缺值较少的 情况可由人工填写。

 人工填写空缺值的优点是经过人为判断, 可以保 证填充值的准确度。

 2.1.3. 常量填充 使用一个或若干个常量来填充空缺值,情况包括:

 1 、 直接使用一个常量填充该字段所有空缺值; 2 、 随机从若干个常量中选择一个填充。

 2.1.4. 统计填充 对该字段中非空缺值进行统计, 根据统计结果来选择空缺值填充 内容,情况包括:

 1 、 对数值型数据,可以使用非空缺值的平均值、最大值、最 小值、众数、某分位数等做填充; 2 、 对时间型(日期型)数据,可以使用非空缺值的平均时间 (日期)、最近时间(日期)、最远时间(日期)等做填充; 3 、 对字符型数据,可以对非空缺值分类并统计出各类别的数 量和占比,根据各分类数量或占比的值选择如最大量、最 小量等做填充。

 2.1.5. 条件填充 条件填充是依据该条记录中其它非空字段的特点, 设置关联条件, 对空缺值进行填充。情况包括:

 (下面设定 A 字段为待填充的含空缺 值字段, B 、 C••… 为其它关联字段)

 1 、 存在与 A 字段强关联的 B 字段,通过 B 字段推理出 A 字段 的内容,如学历为研究生的大部分都通过了英语六级; 2 、 存在与 A 字段具有约束关系的 B 字段,通过 B 字段推导出

 A 字段内容,如通过身份证号码可以推导出年龄、出生日 期、性别等字段。

 2.1.6. 分析填充 分析填充通过数据统计、分析、挖掘等算法,来寻找空缺值最可 能的值给予填充。分析填充需要人工设置分析方法并选择分析字段, 需要人工和计算器共同完成。情况包括:

 1 、 关联分析,使用关联分析的挖掘方法分析数据,寻找出强 关联的字段,根据强关联字段关联情况寻找最可能的值, 当数据字段具有强关联时,此种方式有效。

 2 、 聚类分析,使用聚类分析的挖掘方法分析数据,将非空数 据记录聚类成若干簇,根据簇中字段特点来选择最可能的 值。

 3 、 回归分析,使用回归等数据挖掘方法,计算最可能的值, 此种方式对数值型数据有效。

 2.1.7. 规则填充 规则填充是指如果数据元标准、 数据目录标准中存在相应的标准 规范,可以直接按照标准规范中的要求进行填充。规则填充依据“条 件填充”的规范,是事先定义好的标准。

 2.2. 违规值处理 违规值问题是指数据的格式不符合要求, 或者含有格式要求外的 字符,如姓名中出现阿拉伯数字。

 2.2.1. 删除记录 即删除含违规值记录。

 可在设定好规则后由机器处理, 适于删除 记录操作的情况包括:

 1 、 关键字段存在违规值,且无法恢复; 2 、 编码错误导致存在大量违规值,且无法恢复; 2.2.2. 人工修改 通常数据量较大的情况下, 此种方式并不适合, 在违规值较少的 情况可由人工修改。

 人工修改违规值的优点是经过人为判断, 可以保 证修正值的准确度。

 2.2.3. 内容清空 即清空违规值字段内容,当作空缺值处理。

 2.2.4. 违规字符清除 对于存在违规字符的数据, 通过设置规则清理掉数据字段中的违 规字符,而保留不违规字符,可直接将违规字符替换为空。适于违规 字符清理的操作包括如:

 1 、 时间或日期型数据中含有如 “ ()”等违规字符; 2 、 名字等字段中含有空格;

 3 、 身份证号码等字段中含有 X 以外的其它字母或字符;

 2.2.5. 违规字符替换 对含有违规字符的内容做违规字符替换, 将违规字符替换为规则 内字符。

 1 、 统一替换,将违规字符统一替换为某规则内字符;

 2 、 规则替换,不同违规字符对应不同的规则内字符; 3 、 精确替换,设置匹配规则做精确替换, 如“ & ”替换为“和”; 4 、 模糊替换,设置匹配规则做模糊替换,如“ &*** ( * 代表 其他字符)”替换为“和”。

 2.2.6. 字典匹配 对于字典字段, 填写的内容不在字典项之内, 这种问题可以归为 违规值,有些违规可能是因为填写不规范造成的, 如多写了或少写了 一些字符,可以通过模糊匹配核心词的方式来做处理:

 1 、 模糊匹配,新增规则字典并设置匹配规则做模糊对应; 2 、 精确匹配,新增规则字典并设置匹配规则做精确对应; 2.2.7. 规则修改 按照数据字段标准和数据目录标准或者设置条件约束规则, 对含 有违规值的内容做修改。

 该种方式忽略当前违规值, 直接依据标准规 则或约束条件进行修改处理。

 2.3. 噪声值处理 噪声值是指数据内容超出了字段要求的逻辑范畴,不符合常理。

 如人的年龄 190 岁、身高 10 米、体重 5 吨等错误,可以通过一些降 噪方式来处理。

 2.3.1. 删除记录 即删除含噪声值记录。可在设定好规则后由机器统一处理。

 2.3.2. 内容清空

 依据字段要求的逻辑范畴,对噪声值内容做清空处理。

 2.3.3. 人工修改噪声值 通常数据量较大的情况下, 此种方式并不适合, 在噪声值较少的 情况可由人工修改。

 人工修改噪声值的优点是经过人为判断, 可以保 证修正值的准确度。

 2.3.4. 修改规则 数值型数据中存在数据单位不统一的情况, 如数据标准规定的单 位是米,而待检测数据是按厘米保存的数据, 数据单位的不一致会导 致检测规则不符合实际数据情况, 可以通过修改检测规则的方式来处 理,重新识别噪声值。

 2.3.5. 数值转换 数值型数据中存在数据单位不统一的情况, 如数据标准规定的单 位是米,而待检测数据是按厘米保存的数据。

 为了保证数据标准的权 威性,可以通过数值转换的方式来做处理。如身高标准的单位是米, 待处理数据的单位是厘米,则可以对待处理数值除以 100 ,另外还有 货币或其他计量单位。此种方式一般需要人工分析和设置。

 2.3.6. 数据平滑 对数值型数据含有的噪声数据,可以通过数据平滑技术做处理。

 1 、 近似填充,通过考察相近的值来平衡噪声值,如选择离噪 声值最近的正常值,将噪声值修改为正常值,或者选择离 噪声值较近的若干个正常值,将噪声值修改为这些正常值 的平均值等。数据量较大时适用; 2 、 统计,基于统计的方法,如将噪声值修改为正常值的平均 值。数据量较

 小时适用; 3 、 常量替换,将噪声值替换为常量。

 2.4. 数据完整性处理 为保证数据集的完整性和一致性, 从整体出发,来做相应的处理。

 数据完整性处理可以对重复字段、重复记录、冲突字段做清洗处理, 单对数据缺失的问题无法处理,这需要从数据源出发寻找解决办法。

 2.4.1. 字段排重 重复字段是某若个字段表述的属性是一样, 可以做排重处理。

 对 于重复字段,可以选择保留某一字段,删除其它重复的字段。

 1 、 人工选择,由人工选择保留字段,删除其它重复字段; 2 、 依标准保留,依据数据目标标准,保留完全符合数据目录 标准的字段; 3 、 依质量保留,根据数据质量检测结果,保留数据质量问题 最少的字段; 4 、 顺序保留,即按字段出现的顺序,保留第一个字段或最后 一个字段。

 2.4.2. 依关键字段的记录排重 针对某关键字段, 每条记录需要是唯一的, 如果同一字段出现了 多条记录对应,只需要保留其中一条即可。

 1 、 人工选择,由人工选择保留记录,删除其它重复记录; 2 、 顺序保留,即按记录出现的顺序,保留第一条记录; 3 、 条件保留,设置条件规则和约束字段,比如保留按时间属

 性字段离当前最近的 4 、 以数据质量保留,根据数据质量检测结果,保留数据质量 问题最少的记录。

 2.4.3. 依重复度的记录排重 对比数据记录的重复情况,达到一定要求的,即可排重。

 1 、 完全重复,即两条记录完全一致,保留一条即可; 2 、 不完全重复,设置若干比对字段,按比对字段完全一致的 记录,保留一条即可。

 2.4.4. 字段冲突处理 对具有强约束关系的字段, 可以以某字段作为标准, 对其余字段 做修改处理。如,身份证号字段与年龄、性别字段具有约束关系,可 以以身份证号座位标准字段, 在与年龄或性别字段冲突时, 通过身份 证号推导出正确的值。

 2.4.5. 记录冲突处理 对不同的记录, 记录之间可能存在关联关系, 需要根据不同的问 题情况做不同的处理。

 1 、 统计错误,如合计项的值不是列表项中值的和,需要人工 分析处理和修改错误值; 2 、 逻辑错误,如人员列表中,不同的人对应了相同的驾驶证 号,其中一条记录一定是错的,需要人工分析处理和修改

 错误值 3. 数据加工 在完成数据清洗后, 可以对清洗后的数据按需求做一定的加工处 理,数据加工要求在不改变数据内容和数据逻辑的前提下进行。

 3.1. 数据集成 数据集成是将多个数据集合并成一个数据集的操作。

 数据集成可 能会产生冗余数据或重复数据, 需要再经过数据检测来查看数据问题。

 3.1.1. 记录合成 将数据结构一致或相近的数据集合成为一个大数据集。

 可能出现 的情况和加工方式包括:

 1 、 结构一致,将数据集 B 拼接在数据集 A 之后; 2 、 结构不一致,在数据集 A 中增加数据集 B 中的新字段,并 将值均置为空,同时在数据集 B 中增加数据集 A 中的新字 段,并将值均置为空,再将数据集 B 拼接在数据集 A 之后; 3 、 记录冗余处理,数据集拼接后,可能存在记录重复、数据 冲突等问题,需要经过数据检验来排除问题。

 3.1.2. 字段聚合 将具有相同关键字段的多个数据集,以关键字段(要求唯一)为 主键,聚合成一个具有更多属性字段的数据集。

 1 、 设置主数据集,其它数据集以主数据集为依托进行聚合, 最终聚合的记录与主数据集记录数对应; 2 、 不设置主数据集,对多个数据集的主键拼接排重,最终聚 合的记录是多个数据集的并集; 3 、 字段冗余处理,字段聚合后,可能存在字段重复、数据冲 突等问题,需要经过数据检验来排除问题。

 3.2. 数值平滑 数据平滑主要针对数值型数据, 除了可以用来消除检测出的噪声 数据,还可以分析符合检测要求的数据值中存在的噪声。

 3.2.1. 数值分箱 分箱方法通过考察周围的值来做平滑处理。

 数值被划分到若干个 箱中,每个箱内的数据可以统一取平均值或边界值。

 3.2.2. 数值聚类 通过聚类可以发现异常数据, 相似或相邻的数据聚合在一起形成 了各个聚类集合, 位于聚类集合之外的数据, 可以被认为是异常数据, 可以做删除或者修改的操作。

 3.2.3. 数值回归 可以利用拟合函数对数据进行平滑。

 例如,线性回归需要找到适

 合两个变量字段的拟合直线, 使得一个字段可以预测另一个字段。

 多 线性回归则涉及两个以上的字段。

 通过拟合函数平滑数据并去除异常 数据。

 3.3. 数据变换 按需求将已有字段内容变换成其它形式。

 3.3.1. 依规则变换 依据一定的标准(或字典)将数据转换成其它形式。如:

 0 对应 未知、 1 对应男、 2 对应女等,依据对应规则做相应的变换。

 3.3.2. 数据概化 用更抽象的概念取代低层次或数据层的数据对象。如年龄字段, 可以从 0 、 1 、2 、 3 、 4 、 5 ……这样的数值属性映射到较高层概念, 如儿童、少年、青年、中年、老年…… 3.3.3. 单位转换 根据数据单位及单位间的转换规则转换数值, 如人民币转换为美 元、英尺转换为公尺等等。

 3.3.4. 数据下钻 对数据进行汇总和聚集操作。例如,可以聚集日数据,计算出月 和年数据。

 3.3.5. 数据规范化

 将有关属性数据按比例投射到特定的小范围内,如 -1.0~1.0 或 0.0~1.0 。

 3.4. 分拆合并 对已知字段做分拆、合并等操作,转换成新的字段。

 3.4.1. 直接分拆 从字段中分拆其中的部分直接生产新的数据字段, 如从地址信息 中分拆出城市名称。

 1 、 从左往右分拆出 X 位; 2 、 从右往左分拆出 X 位; 3 、 从第 M 位开始, 分拆出 X 位; 3.4.2. 分拆变换 分拆字段中的部分内容并做一定的转化, 如提取身份证号中的性 别位并转化为性别字段。

 3.4.3. 字符添加 在字段中添加特定的字符。

 1 、 在开头添加字符; 2 、 在结尾添加字符; 3 、 在第 X 位添加字符; 4 、 在某固定字符前(后)添加字符。

 3.4.4. 直接合并 将多个字段直接合并为一个字段。

 3.4.5. 变换合并 将字段进行转换后再合并为一个字段。

 4. 数据脱敏 数据脱敏指对某些敏感信息通过脱敏规则进行数据的变形, 实现 敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产 环境以及外包环境中安全地使用脱敏后的真实数据集。

 4.1. 定义敏感数据 敏感数据又称隐私数据, 常见的敏感数据有 : 姓名、身份证号码、 地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如 账户查询密码、取款密码、登录密码等 )

 、组织机构名称、营业执照 号码、银行帐号、交易日期、交易金额等。平台提供敏感数据定义功 能,可以人工定义敏感数据。

 一般可分为替换算法和生成算法两大类。

 替换算法即将需要脱敏 的部分使用定义好的字符或字符串替换,生成类算法则更复杂一些, 要求脱敏后的数据符合逻辑规则,即是 “看起来很真实的假数据 ”。

 4.2. 可恢复脱敏 一般的脱敏规则分类为可恢复与不可恢复两类。

 可恢复类, 指脱 敏后的数据可以通过一定的方式, 可以恢复成原来的敏感数据, 此类 脱敏规则主要指各类加解密算法规则。

 可恢复脱敏遵循下面两个原则:

 尽可能的为脱敏后的应用 , 保留脱敏前

 的有意义信息;最大程度上防 止黑客进行破解。

 4.2.1. 替换 如统一将女性用户名替换为 A ,对内部人员可以完全保持信息完 整性,但易破解。

 4.2.2. 重排 如序号 12345 重排为 54321 ,按照一定的顺序进行打乱, 很像“替 换”, 可以在需要时方便还原信息,但同样易破解。

 4.2.3. 加密 如编号 12345 加密为 23456 ,安全程度取决于采用哪种加密算法, 一般根据实际情况而定。

 4.3. 不可恢复脱敏 不可恢复类, 指脱敏后的数据被脱敏的部分使用任何方式都不能 恢复出。脱敏方法示例。

 4.3.1. 删除 直接删除敏感字段。

 4.3.2. 截断 如 13811001111 截断为 138 ,舍弃必要信息来保证数据的模糊性, 是比较

 常用的脱敏方法,但往往对生产不够友好。

 4.3.3. 掩码 如 123456 -> 1xxxx6 ,保留了部分信息,并且保证了信息的长度 不变性,对信息持有者更易辨别,如火车票上的身份信息。

 4.3.4. 日期偏移取整 20130520 12:30:45 -> 20130520 12:00:00 ,舍弃精度来保证原始数 据的安全性,一般此种方法可以保护数据的时间分布密度。

 4.3.5. 随机化 按一定规则将数据值替换为随机值。

 5. 数据标准 数据标准是基于对政务数据的梳理, 整理出数据元对应的数据字 段的格式标准。不同字段对应的数据元可以由系统自动识别和匹配,

 同时也可以做自定义设定。平台自动识别和匹配的格式标准也可以根 据实际需求做个性化的设置和调整。

 5.1. 数据格式分类和规范 数据字段内容格式规范采用了数据元相关标准,表示格式如下 c 中文字符,可以包含汉字 ( 中、国……等 )

 、字母字彳 ( a-z,A-Z )和数字字符等 c12 固定 12 位字符(即 6 个汉字)长度的中文字符 C..12 最多为 12 位字符(即 6 个汉字)长度的中文字符 a 特指字母字符( a-z,A-Z )

 a3 固定长度的 3 位字母字符 a..3 最多为 3 位字母字符 n 数字字符( 0 、 1 、 2 、 3 ……)

 n3 固定长度的 3 位数字字符 n..3 最多为 3 位数字字符 n..5 , n2 数值型 , 小数点前最多为 5 位数字,小数点后保留 2 位数字, 总长度最多为 8 位数字字符 an 字母和数字字符 an3 固定长度的 3 位字母数字字符 an ..3 最多为 3 位字母数字字符

 d8 日期型,按年、月、日顺序全数字表示,格式为 8 位定长、 全数字表示( YYYYMM )

 D 年用 4 位数字表示,月、日各 用 2 位数字表示,彼此之间没有分隔符,如 2002 年 12 月 25 日,应表示为 20021225 t 时间型,按时、分、秒顺序全数字表示,格式为 6 位定长、 全数字表示( hhmmsS z 综合性,可含有各种字符,且具有一定的格式。

 52 标准字段目录 5 ?2 ?1 ? 自然人属性 521.1. 姓名 标准字段名 姓名 匹配字段名 人名 | 名字 | 企业法人 定义 在公安户籍管理部门正式登记注册、 人事档案中正式记 载的中文姓氏名称 默认检测规则 1 、 C..30 2 、 不应存在空格和特殊字符 可选清洗规则 1 、 不处理(该字段为辅字段项时推荐)

 2 、 删除记录(该字段为主字段项时推存)

 5212 身份证号码 标准字段名 身份证号码 匹配字段名 公民身份号码(男)

 1 公民身份号码(女)

 1 身份证 定义 公民身份证的号码 默认标准 1 、 an15 2 、 an18 逻辑检测 1 、 格式说明:

 15 位身份证号码组成:

 ddddddyymmddxxs 共 15 位。其 中:dddddd 为 6 位的地方代码,根据这 6 位可以获得 该身份证号所在地; yy 为 2 位的年份代码,是身份证持 有人的出身年份, mm为 2 位的月份代码,是身份证持 有人的出身月份, dd 为 2 位的日期代码,是身份证持 有人的出身日,这 6 位在 起组成了身份证持有人的出 生日期; xx 为 2 位的顺序码,这个是随机数; s 为 1 位 的性别代码,奇数代表男性,偶数代表女性。

 18 位身份证号码组成:

 ddddddyyyymmddxxsp 共 18 位。

 年份代码由原来的 2 位升级到 4 位,最后一位为校验位, 其它部分和 15 位号码相同。

 2 、 校验规则:

 1 )十七位数字本体码加权求和公式 :

 S = Sum(Ai * Wi)

 其中 i = 0, ... , 16, 先对前 17 位数字的

  权求和, Ai 表示第 i 位置上的身份证号码数子值, Wi 表示第 i 位置上的加权因子 ( Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ) 2) 计算模:

 Y 二

 mod(S, 11) 3) 通过模得到对应的校验码:

 Y: 0 1 2 3 4 5 6 7 8 9 10 对应校验码 :1 0 X 9 8 7 6 5 4 3 2 也就是说,如果得到余数为 1 则最后的校验位 p 应该为 对应的 0• 5213 性别 标准字段名 性别 匹配字段名

 定义 人的基本生理特征 默认标准 C..6 标准变换 0 对应未知; 1 对应男; 2 对应女; 9 对应未说明 值域 未知;男;女;未说明

 5214 民族 标准字段名 民族 匹配字段名

 定义 个人所属的、经国家认可在公安户籍管理部门登记注册

  的民族名称。

 默认规则 C..10 标准变换 1 、 见民族代码表中代码与名称的对应 2 、 不含“族”字与含“族”字对应 值域 见民族代码表 民族代码表

 代码 名称 代码 名称 1 汉族 29 柯尔克孜族 2 家古族 30 土族 3 回族 31 达斡尔族 4 藏族 32 仫佬族 5 维吾尔族 33 羌族 6 苗族 34 布朗族 7 彝族 35 撒拉族 8 壮族 36 毛难族 9 布依族 37 仡佬族 10 朝鲜族 38 锡伯族 11 满族 39 阿昌族 12 侗族 40 普米族 13 瑶族 41 塔吉克族 14 白族 42 怒族 15 土家族 43 乌孜别克族

 16 哈尼族 44 俄罗斯族 17 哈萨克族 45 鄂温克族 18 傣族 46 德昂族 19 黎族 47 保安族 20 傈僳族 48 裕固族 21 佤族 49 京族 22 畲族 50 塔塔尔族 23 高山族 51 独龙族 24 拉祜族 52 鄂伦春族 25 水族 53 赫哲族 26 东乡族 54 门巴族 27 纳西族 55 珞巴族 28 景颇族 56 基诺族 99 其他民族

 521.5. 血型 标准字段名 血型 匹配字段名

 定义 人员的血型 默认规则 an..2 标准变换 含“型”与不含“型”相对应 值域 A ; B ; AB; O

 5216 年龄 标准字段名 年龄 匹配字段名

 定义 人员的年龄 默认规则 n..3

 5 ?2 ?2 ? 时间属性 时间属性包括日期型和时间型,日期型字段要求符合 GB/T 7408 中的日历日期, YYYYM MDD 为基本格式, YYYY-M M-DD 为扩展格式 522.1. 日期 标准字段名 日期 匹配字段名

 定义 日期 默认规则 d8, YYYYM MDD! 基本格式 标准变换 YYYY-M M-DD YYYY /MM/DD

 5222 已发生日期 标准字段名 已发生日期 匹配字段名 出生日期 定义 当前日期之前的日期 默认规则 1 、 d8, YYYYMMD 为基本格式 2 、 不超过当前日期

 标准变换 YYYY-M M-DD YYYY /MM/DD

 5 ?2 ?3• 位置属性 5.2.4• 数值属性 5.3. 字段约束标准 梳理数据并可自定义添加。