数据保护2019:野蛮掘金时代的结束
2019-12-14 08:11:43
  • 0
  • 0
  • 0

来源:李军 为FT中文网撰稿

李军:2019年是个人数据隐私保护持续推进中承上启下的一年:2018年GDPR启用,2020年CCPA生效。针对个人数据野蛮掘金的时代已经结束。

2019年是数据与隐私保护正式起步的一年。就在前一年,欧盟针对个人隐私数据保护的“通用数据保护条例”(GDPR)正式生效。全球的数据与隐私保护力度与范围得到了空前的增强。

我们可以先盘点一下欧盟和所属各国开出了哪些GDPR的重量级罚单。

罚单冠军花落英航(British Airways),他们以收到21.83亿英镑的罚单拔得2019年的GDPR罚单头筹。2018年8月至9月,英航泄漏了50万客户数据,其中包括用户登陆信息、信用卡数据、姓名、地址和订座记录等敏感信息。

万豪酒店集团(Marriott International, Inc)以9900万英镑罚单的成绩屈居亚军。他们收购的喜达屋酒店集团的中央预定系统数据库遭到黑客的攻击。超过500万未加密的密码和800万信用卡数据被黑客掌握,牵涉到3000万欧盟居民。值得注意的是,喜达屋酒店集团的数据泄漏居然是从2014年一直持续到2018年。万豪酒店集团的亚军实至名归。

在临近年底的10月30日,德国的房地产企业Deutsche Wohnen异军突起,以1450万欧元的罚单占据了第三名的位置。

这个年底冒出的第三名并不是因为数据泄漏导致的罚单,而是因为数据存储管理没有达到GDPR的合规性要求而受到惩罚。在德国监管部门2017年6月和2019年3月的两次现场检查中,该公司一个存储租户个人数据的归档系统无法提供删除不需要数据的功能。所有的租户个人数据都被在系统中长期保存。在某些被抽查到的租户数据中,甚至包含有关租户儿童的私人数据。这些数据涉及租户个人和财务状况的数据,包括工资表、基本信息披露表、就业和培训合同的摘录、税务、社会保障和健康保险数据甚至银行对账单。

德国政府的数据保护专员在2017年紧急建议Deutsche Wohnen调整归档系统。但在2019年3月,也就是第一次检查的一年半以后,也是GDPR法规正式生效的九个月后,Deutsche Wohnen公司仍然无法提供归档系统数据库的清理工作进展,也没有给出继续存储相关租户数据的合法理由。最终该公司被处以高额罚款。

制裁Deutsche Wohnen这种不满足合规性的行为也为其它努力达到欧盟GDPR合规性要求的企业敲响了警钟:并不是只有数据泄漏才会导致罚款,未雨绸缪的合规性改造同样是必不可少的。

政府部门同样不能置身事外。保加利亚国家税务局(National Revenue Agency)收到了一张260万欧元的罚单 。因为国家税务局在黑客攻击下泄漏了400万公民和200万去世公民的个人数据,并且在核查下被发现税务局的业务流程和IT系统不能完全满足GDPR的数据安全合规性要求,所以保加利亚数据保护委员会最终向国家税务局开具了这一大额罚单。

当然,在GDPR的罚单上怎么能缺少互联网巨头的身影呢? Google在法国接到了一张500万欧元的罚单,以惩罚其在收集和使用用户个人数据不够透明,以及在个性化广告服务方面不能完全遵守GDPR的合规性要求。罚单是由法国国家数据保护委员会(National Data Protection Commission,CNIL)开出的。

最近几年在用户数据保护方面丑闻缠身的Facebook虽然没有拿到欧盟开具的GDPR罚单,但这并不代表Facebook的运气有多好。美国联邦贸易委员会向Facebook开具了50亿美元的罚单,惩罚其在隐私保护方面措施不力。与此同时,爱尔兰数据保护委员会也在对Facebook的GDPR合规性,以及WhatsApp用户应用被黑客攻入的影响展开调查。

尽管一张张高额罚单被监管部门开出,但这仍然不能阻止全球各大企业以前仆后继地发生数据泄漏事故。

今年首屈一指的数据泄漏事件就是美国第五大信用卡发卡银行Capital One的1.06亿用户数据泄漏案件。由于Capital One在Amaozn云服务平台的防火墙参数配置错误,黑客轻松访问到Capital One的云端数据,其中包括客户姓名、地址、邮编、电话、email、生日和报税收入。部分客户数据还包括信用评分、信用金额、账户余额、支付历史和联系信息。黑客还获取了100万个加拿大社会保险号码和相关的8万个银行账号。

2019年泄漏数据最多的案例则是由First American创造的。这家在美国加州负责在房地产交易中提供土地业权保险和结算的金融服务公司一共泄漏了8.85亿条交易记录,其中包括银行交易流水、按揭贷款、地税记录以及社会保险号码等敏感个人信息。

另一个亿级的用户数据泄漏案则与Facebook有关。Facebook的第三方合作伙伴保存的146G用户数据被发现在Amazon S3公有云上被发现可以无认证自由下载,其中包含了5.4亿条Facebook账户的相关数据,包括用户名、评论、点赞等相关信息。

中国企业在个人数据泄漏方面也难以独善其身。去年12月底,一个包含2亿中国求职者简历信息的MongoDB数据库被发现可以公开访问。今年2月份,某AI安防企业被曝数据泄露,680万条数据疑似泄露,其中包括身份证、人脸识别图像及图像拍摄地点等信息。11月份,江苏警方在考拉公司服务器中查获并收缴被非法获取、存储的公民姓名、身份证号、照片近1亿条记录。

除了以上的数据泄漏案例之外,全球游戏服务提供商Zynga泄漏了2.18亿条用户社交数据,印度移动运营商Truecaller泄漏了近3亿条手机用户号码,甚至还有人在公开的Elasticsearch server上发现12亿条包含姓名、电子邮件、电话号码,LinedIn和Facebook账号的个人数据等,类似的案例还可以列出一长串。在多年对个人数据保护宽松环境下成长的企业,要补上数据安全与合规这门课,还需要更多的时间。

当然,掌握最多个人数据的互联网巨头们也在痛定思痛,考虑如何对个人隐私数据应用的形式和范围设限,以打消公众对其收集和保存个人隐私数据的担心。

众所周知,最近两年对互联网巨头收集个人隐私数据的担心很大程度上起源于Facebook的第三方合作伙伴Cambridge Analytica将社交媒体数据应用于政治广告和大选营销。个人数据在政治方面的应用自然成为互联网巨头们首先需要设限的领域。

2019年10月底,推特率先宣布在全球范围内禁止政治广告。Jack Dorsey在自己的推特上表示:“我们已决定在全球停止所有在推特上的政治广告。我们认为政治信息是赢来的,而不是买来的。”

Dorsey认为,互联网政治广告给“公民话语带来全新挑战”,其中包括“基于机器学习的消息优化”,“微目标定位、未经检查的误导性信息和严重的假新闻” 等。

在随后的11月中旬,Google 将暂时中止广告主使用Google拥有的公共投票记录和一般政治背景等数据,向目标用户投放竞选广告 。

虽然Google没有完全封杀政治广告,但政治广告主如果只依靠通用的用户人口地理信息数据设计广告投放方案,将很难精准定位目标受众。当然,政治广告主也可以通过特定话题来对于目标受众进行筛选,但要建立特定话题和政治态度的高相关性匹配模型是需要机器学习的专家进行精准设计的。所以这一限制最终大大提高了精准政治广告投放的难度。

Twitter和Google对于政治广告的封杀或限制将直接影响12月13日的英国大选和2020年美国大选的竞争态势。

Facebook对于政治广告的态度则有所不同。Facebook更倾向于把使用个人数据定向投放的政治广告透明化,而不是审查乃至限制政治广告的投放内容和方式。Facebook目前提供了增加选举广告透明度的工具,该工具提供了包含Facebook平台上所有政治广告的资料库,存储七年以内的政治广告投放数据。数据中包含的广告投放信息有花费金额、显示的曝光(impression)数量,广告投放的付费方,目标受众的人口地理统计数据--如年龄、性别和位置等。

但媒体在11月份披露,Facebook 也在考虑改变现有但政治广告政策,其中可能包括阻止竞选活动只针对非常小的受众群体 。消息显示,Facebook目前考虑将政治广告中的最低目标受众规模从一百人提高到数千人,以努力避免信息传播过于精准。

我们知道,深入的数据洞察之所以能够有巨大的潜力,就是因为在占有丰富广泛的数据基础上,机器学习模型可以非常灵活地按照不同的受众特点制定相应的广告内容,做到“千人千面”和“一对一营销”。这是在传统的手工制定营销内容时代是完全无法做到的。这也是为什么互联网巨头千方百计希望全面收集用户个人数据,并进行整合的最终目的。但在目前的个人数据与隐私保护的行业风潮下,互联网巨头不得不考虑放弃过于细分的营销群体,转而试图构建预测更加精准的模型来达到营销效率的提高。

尽管互联网巨头们试图通过对个人隐私数据应用的形式和范围作出各种限制,以便打消公众和监管部门对他们拥有个人隐私数据的顾虑,但来自监管部门的强制性约束在可预见的时间范围内一定会越来越紧。

个人隐私数据保护的旋风从互联网行业吹起,但绝不会止步于互联网行业。

从2020年1月开始,加利福尼亚消费者隐私条例(The California Consumer Privacy Act, CCPA)将正式生效。所有加州的零售商、餐馆、航空公司和银行等服务机构都必须接受顾客的查询,如实告知自己收集了哪些顾客个人信息,包括联系信息、购买记录、客户忠诚度系统的消费记录等。

顾客同样可以要求商家删除自己的相关信息,或者查询自己的信息是否被转卖给第三方。

该条例适用于所有盈利机构,只要其年收入超过2500万美元、或者超过5万条顾客信息、或者收入的50%来自于销售客户数据的精准营销服务公司。哪怕那些在加州没有实体的机构,只要其网站能够被加州居民访问且满足上述要求,都在被管辖之列。

预计全美有超过50万个商家满足CCPA列明的管辖要求。而根据审计机构普华永道(PwC)的调查,目前在加州只有52%的企业做好了相应的准备。

CCPA条例将不晚于于2020年7月成为强制遵守的条例。在此情况下,泄露客户数据可以导致最高每条7500美元的罚款。CCPA同时还保护消费者在商家发生个人数据泄漏时获得的赔偿及上诉的权利。在数据泄露时,每起事件每位消费者的法定赔偿金为100美元至750美元,或按照数据泄漏造成的直接损失计算实际赔偿金,以两种计算方法中金额较大者为准。消费者个人还可以寻求法庭禁令或法庭 认为适当的其他任何救济。

2019年是个人数据隐私保护持续推进中承上启下的一年--2018年GDPR启用,2020年CCPA生效。但如何平衡“个人数据保护”与“数据价值挖掘”这两者之间的矛盾,目前并没有一个各方都能够接受的解决方案。但不管怎么说,在全球范围内,针对个人数据野蛮掘金的时代已经结束了。

(本文仅代表作者本人观点,作者系加拿大最大的新闻媒体集团Postmedia的数据科学经理,负责机器学习平台的开发与商业应用,联系邮箱:jjunli@postmedia.com。责编:闫曼 man.yan@ftchinese.com)

版权声明:本文版权归FT中文网所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

 
最新文章
相关阅读