为什么说GDPR是人工智能的“紧箍咒”?


  “因为GDPR(欧盟通用数据保护条例),我们在欧洲的新品发布已经推迟了。”出门问问创始人兼CEO李志飞告诉《财经》记者。出门问问是中国一家人工智能(AI)创业公司,该公司基于AI技术生产诸如智能手表、智能音箱在内的智能语音设备,2016年起产品已经销往欧美市场。
  不仅仅是出门问问,《财经》记者获悉,许多AI公司都正忙于联合法律专家,基于GDPR条款,全面审查和调整自己的产品、服务乃至商业模式。
  GDPR全称General Data Protection Regulation,号称有史以来最为严格的数据保护法规,欧盟于2018年5月25日正式实施。作为一项强制性法律,它保护的是自然人的“个人数据”,包括姓名、地址、生日、信用卡、银行、医疗信息、位置信息、IP地址等等。
  这意味着,任何在欧盟设立机构的企业或向欧盟境内提供产品和服务的企业,在处理欧盟境内个人的数据时都受到GDPR的约束,除非放弃欧盟5亿发达人口市场。
  如果违反GDPR,企业最高将面临高达全球年营收4%或者2000万欧元(约1.5亿元人民币)的巨额罚款(两者取其高)。
  AI是一个极度依赖数据的行业。纵观AI落地全过程,从最初进行AI算法模型的训练,到形成最终的AI产品或服务,数据都是不可或缺的生产资料,这意味着GDPR对AI的约束贯穿AI整个生命周期。而且,不仅仅是AI公司,但凡使用AI算法去改造自身业务的公司都需要评估是否违反GDPR。
  《财经》记者发现,目前,“GDPR导致深度学习即将违法”等一些有失严谨的观点广为流传,AI从业者在合规建设中普遍存在困惑。如何正确理解GDPR法律条款、评估可能的风险,以及预测GDPR究竟会对欧盟内外AI产业带来什么样的影响,成了当务之急。

“两步走”界定个人数据


  GDPR由11章共99项条款组成,立法目的是在保护个人数据的前提下实现数据的价值。因此,企业首先要搞明白的问题就是:什么是个人数据?这并非看上去那么简单明了,理解不当有可能令企业未来陷入法律风险。
  按照GDPR的规定,姓名、地址、生日、信用卡、IP地址等信息均属于个人敏感信息,此外,揭示人种族、政治倾向、宗教和哲学信仰、基因数据和生物数据、甚至个人健康或者性生活的数据也都被明确说明属于个人数据,但现实中仍然存在一些令人困惑的数据类型,例如,语音数据、车牌号码是否属于个人数据?
  腾讯研究院专门研究数据保護法律法规的专家王融表示具体情况具体分析。GDPR规定对个人数据的定义很宽广,能间接识别到特定自然人的数据也属于个人数据,在被保护的范畴内。
  “如果一段语音结合其他信息能定位到特定的个人,那这段语音数据可视为个人数据。车牌号也是一样,由于具有唯一性,在很多场景下都可以被识别,这也是为什么谷歌街景要把车牌号均抹去的原因,但公家车的车牌又不属于个人信息,所以要结合具体场景进行分析。”王融向《财经》记者解释。
  AI公司使用的数据类型五花八门,如何判断某类数据是否属于个人数据?王融介绍了个“两步走”的方法:第一步,判断这一数据是否是由特定的个人产生;第二步看可识别性,能直接识别到个人自然无争议,但要小心甄别“间接识别到个人”的情况。
2017年汉诺威科技展上,一位电视台记者采访一个机器人。

  一旦界定手中拥有的数据为个人数据,企业和机构只能一一征求个人用户的同意,并赋予个人用户未来可以随时撤回同意的权利,以及随时要求相关机构删除其个人数据的权利。
  不过,为了与其他正当利益达到平衡,GDPR列出了一些无需经由个人用户同意的场景。例如,为了公共利益或因官方权威要求而履行某项任务,为了履行法律职责的需要,为了保护数据主体或另一个自然人的核心利益等。
  这意味着,公共机构仍然可以在公共场合设置摄像头,并利用人脸识别技术对潜在的恐怖分子进行排查;医疗机构发现大的疫情之后,也可以不经当事人同意处理个人数据。
  对于这一问题,我国行业标准《个人信息安全规范》(2018年5月1日生效)也做出了修正,详细罗列了11项例外的情形,以保证数据的合理化使用。

深度学习不合法?误读


  如果说对个人数据的理解不当可能给AI公司带来法律风险,那对另一项条款的解读正在让一些AI从业者陷入过度的担忧。
  该条款名为“自动决策的可解释权”(The Right to Explanation of Automated Decision),多个接受《财经》记者采访的行业人士认为,这是GDPR专门针对AI设立的条款。
  针对该条款,《终极算法》作者华盛顿大学教授Pedro Domingos在今年初发表惊人言论:自5月25日起,欧盟将会要求所有算法解释其输出原理,这意味着深度学习即将非法。
  人工智能早在上世纪50年代就作为独立的学科存在,一直因为难以落地而长时间遇冷。最近几年人工智能之所以再度时兴,主要原因之一是出现了深度学习理论与技术。
  但深度学习目前在一定程度上仍是“黑盒子”,难以解释具体的内部逻辑。
  中国信息通信研究院云计算与大数据研究所副所长何宝宏曾分析称,人们虽然利用深度学习构建了神经网络,但对神经网络表现出的一些“智能”还不能做出合理解释,也事先无法预知学习的效果。
  “为了提高神经网络训练的效果,除了不断增加网络深度和节点数量、喂更多数据和增加算力,然后反复调整参数,基本就没别的招数了,而且,调参还像玄学,并没有总结出一套系统经验做指导,完全依赖个人经验,甚至靠碰运气。”何宝宏说。