匿名是一种幻想。 根据匿名数据集中的数据,您可以识别真实人物



Theguardian.com 发表了由两所著名大学进行的一项研究的发现:比利时UCLouvain大学和伦敦帝国学院:科学家们确认,有许多方法可以将匿名数据与真实人联系起来。
例如,具有15个人口统计属性的数据“将由99.98%的马萨诸塞州居民揭示”。 对于人口较少的人,此过程甚至更简单:例如,如果我们谈论的是一个小镇,那么“识别居住在2000人以下的马萨诸塞州哈里奇港的居民将不难”。

“匿名”数据是许多过程的基础:从现代医学研究到个人推荐和AI技术。 不幸的是,根据这项研究,在任何复杂的数据集中,几乎不可能成功匿名化数据。

必须从匿名数据集中完全删除所有可识别的个人信息,以便仅保留研究人员可以操作的基本有用数据,而不必担心侵犯隐私权。 例如,一家医院可以从一系列医疗记录中删除患者的姓名,地址和出生日期,以希望研究人员可以使用其余数据来发现病情之间的隐秘关系。

但是,实际上,可以通过多种方式对数据进行匿名处理。 在2008年,匿名的Netflix电影分级数据集通过将分级与IMDb网站上的数据进行比较而被取消匿名。 纽约出租车司机的地址是根据该城市各地个人旅行的匿名数据集披露的。 澳大利亚卫生部提出的匿名医疗计费数据可以通过交叉引用“平淡无奇的事实”来识别,例如母亲和孩子的生日,或母亲和几个孩子的生日。

比利时鲁汶天主教大学(UCLouvain)和伦敦帝国理工学院的研究人员建立了一个模型,用于评估任意数据集的去匿名化难易程度。 例如,具有15个人口统计属性的数据“将由99.98%的马萨诸塞州居民揭示”。 对于人口较少的人,此过程甚至更简单:例如,如果我们谈论的是一个小镇,那么“识别居住在2000人以下的马萨诸塞州哈里奇港的居民将不难”。

尽管如此,像Experian这样的数据经纪人仍会出售“去识别”的数据集,其中包含有关每个人的更多信息。 研究人员指出出售给软件公司Alteryx的数据-它包含针对1.2亿美国家庭的248个属性。

研究人员认为,他们的结果证明缺乏匿名性努力来满足法律要求,例如GDPR(通用数据保护法规)。
我们的结果证明了无法恢复身份信息的指控……

他们进一步质疑当前的去识别技术与现代数据保护法(例如GDPR和CCPA(加利福尼亚消费者隐私法案))中的匿名化标准的相关性,并强调从法律和法规的角度出发,有必要超越去识别模型。 “被遗忘了。

处理海量数据集的其他方法可能更符合当前的信息保护标准。 苹果和Uber等公司实行的差异化隐私故意侵蚀了整个数据集中平均的每个信息单元,从而通过提供有关每个人的技术错误信息来干扰去匿名化。

同态加密不允许读取数据,但仍可以对其进行操作。 结果也将被加密,但是数据控制器可以对其解密。 最后,我们将介绍合成数据集,这意味着对AI进行真实,可识别信息的培训,在此基础上将生成新的伪造数据单元,这些数据单元在统计上是相同的,但与特定人员无关。

Source: https://habr.com/ru/post/zh-CN461381/


All Articles