匿名的人口统计数据仍可用于识别您的身份

一名男子的脸上有关于他的可识别信息。

如果你是为数不多的人之一 阅读服务条款,你可能会发现在各公司的隐私政策中埋下一条条款,说他们可能会收集和 将您的数据出售给第三方

他们说,这些数据是匿名的,但是一项新的研究发表在 自然通讯 证明,根据您所分享的内容,仍然可以以惊人的准确度重新识别您。来自伦敦帝国理工学院和比利时鲁汶大学的研究人员创建了一种机器学习模型,可以从匿名数据集中重新识别个体,甚至可以从“非常不完整的数据集”中识别出来。

这样的启示来自更多人的时代 对出售数据的公司持谨慎态度 对于第三方,并且对许多公司和学术机构收集和使用的当前存储(和共享)匿名数据产生隐私影响。

数据匿名化如何工作?

除非你是 完全脱离电网,您经常通过在线购物和制作大量个人数据 你的跑步路线 更多个人数据,如您的健康记录。

这些数据库对于希望改善目标的广告客户来说是金粉(阅读:Cambridge Analytica),以及寻求公共健康趋势的研究人员,以及 教授面部识别人工智能

为了保护数据背后的身份,一般的“最佳实践”是删除明显的识别信息,如姓名,电子邮件地址,电话和社会安全号码。

过时的匿名化技术

自20世纪90年代以来,许多流行的匿名化方法都没有改变,因此未能采用更复杂的匿名化技术来应对在线数据的爆炸式增长。

有几个例子,可以追溯到早在 2000,据称是已发布并随后重新识别的匿名数据集。

2017年,记者成功“在匿名浏览历史数据集中重新识别政治家 300万德国公民,发现他们的医疗信息和性取向。“

这项新研究还指出了以前的研究工作,研究人员能够“在纽约的匿名出租车轨道,伦敦的自行车共享旅行,里加的地铁数据以及手机和信用卡数据集中唯一识别个人”。

重新识别您所需的数据点很少

该研究背后的研究人员已经建立了一个在线表格 测试你被识别的机会 (仅限美国和英国居民)来自假设的健康保险公司,只有三个数据点:您的性别,出生日期和邮政编码。

例如,如果您是1990年11月12日出生的美国男性,并且目前居住在02139邮政编码中,则有一个 54% 你的雇主或邻居可能会认出你的机会。

匿名的人口统计数据仍可用于识别您的身份 1但是,当您添加更多属性时,该百分比会增加:单独添加您的婚姻状况可能会增加识别您身份的机会 99%。其他属性包括车辆数量,工作类别(选定行业)和房屋所有权。

匿名的人口统计数据仍可用于识别您的身份 2

公司应该如何匿名我们的数据?

从这项研究中可以清楚地看出,目前的匿名化做法并未充分保护人们的隐私,并且容易被任何有权访问该数据的人重新识别。

不幸的是,个人在这里做的并不多 – 这取决于存储,销售和使用这些数据的公司和机构,以改变他们对数据进行匿名化的方式。欧盟的GDPR和加利福尼亚州的消费者隐私法案等法规都要求所有数据集中的个人都是匿名的,不可能重新识别,但对公司负责可能会很困难。

防止匿名数据重新识别的一种方法是采用 差别隐私,一种数学模型,在数据被发送到服务器之前,会在数据中小心地添加一定量的随机“噪声”,使数据更接近于准确,但足以保护个人的隐私。公司喜欢 苹果谷歌 已将差异隐私纳入其数据收集中。

我们很快就会看到差异隐私在很大程度上受到考验:它将被使用 在下一次美国人口普查中

您可以采取措施保护自己

因此,当公司要求您允许与第三方共享匿名数据时,您应该怎么做?考虑自己匿名化您的数据。并非每家公司都有权享受您的真实生日,您的实际邮政编码,您的性别或婚姻状况,甚至您的真实姓名。如果细节对您使用某项特定服务并不重要,请注意一些不一致之处。 (如果一个唯一拼写错误的名字开始出现在你的邮箱中,你就会确切地知道哪个公司卖掉了你。)

更好的是,只与那些公司做生意 完全了解他们收集的数据那个 永远不会收集他们不需要的任何数据那个 绝不与任何第三方共享或出售您的个人信息那就是 严重匿名匿名基本诊断信息 (如果您愿意,甚至允许您选择退出)。我们碰巧知道 最后一个