为什么我们都应该关心元数据监控

这篇文章最初发表于 2014 年 4 月 25 日。

希望斯诺登关于美国国家安全局监视电话元数据的启示仍然在您的脑海中记忆犹新。 “但这只是元数据!” 有些人仍然坚持。 “这不是真实数据。 谁在乎?”

每个人都应该关心. 正如数据科学家 Deepak Jagdish 和 Daniel Smilkov 在他们的 TEDx 剑桥演讲中所阐述的那样,您的元数据讲述了一个令人吃惊的完整故事, 元数据的力量. 如果您今天有时间,我强烈建议您花几分钟时间观看。

什么是元数据?

元数据是有关您在使用技术时与其他人和组织进行交互的信息。 这不是这些交互的实际内容,而是有关内容的信息。

元数据示例

  1. 你打电话给谁,什么时候?
  2. 你给谁发了邮件,什么时候发的?
  3. 您在何时何地使用信用卡?
  4. 您从哪台计算机访问了哪些网站,何时访问?

这些听起来可能无害,但是当您随着时间的推移将所有这些添加并相互交叉引用时, 他们可以为您画出非常准确的肖像.

沉浸式:您的电子邮件元数据,可视化

在麻省理工学院媒体实验室,Jagdish、Smilkov 和他们的顾问 Cesar Hidalgo 决定创建 Immersion 形象化 我们可以从电子邮件元数据中学到什么——也就是说,只有电子邮件中的 From、To、Cc 和 Timestamp 字段。 (沉浸不会触及电子邮件的主题行和正文。)

仅使用此元数据,Immersion 就可以为您与人的关系以及这些关系怎样随着时间的推移而演变提供信息丰富的说明。

我不得不自己尝试. 在等待 Immersion 处理我的数千封电子邮件后,我可以看到我的社交网络中的变化怎样与重大的生活变化相关联——搬家城市、换工作等。Immersion 创建的社交网络地图将我的社交网络划分为我的社交群体一眼就能认出:我可以看到六年前和我一起工作过的一群人,以及我在不同城市共度时光的一群人。

我决定做一个思想实验。 “第三方能从我的数据中得出什么结论?” 我问自己。 “如果我不认识自己,我能从中得出什么结论?”

很多。 这很容易,因为 example,推断谁是我最亲密的朋友和家人(他们是我从收到电子邮件地址的那一刻起就一直通过电子邮件发送的人)。 他们还可以根据群组电子邮件线程推断出我的哪些同事与谁相关联。 从这个意义上说,我们的元数据不仅暴露了关于我们自己的信息,还暴露了我们与之相关的人的信息。

在 TEDx 演讲中,最让我印象深刻的一件事是,Smilkov 指出电子邮件界面只能提供对您电子邮件历史的最浅薄的一瞥,这让我们很容易忘记隐藏在下面的多年元数据我们最近的电子邮件。 为了 example当我们登录到 Gmail 或 Outlook,我们通常只会看到最近收到的 20-50 封电子邮件,而且每天都会被新邮件替换。 因此,我们中的许多人不会考虑帐户中成千上万的电子邮件以及与之相关的所有元数据。

元数据无处不在

元数据不仅仅存在于电子邮件中。 卫报的元数据互动指南 演示怎样从一系列活动中生成数据,从用数码相机拍照到使用搜索引擎。 斯坦福大学的学生表明,电话记录监控,即使是很短的时间, 可以透露的比我们想让别人知道的更多

电话元数据是 明确敏感 [blogger note: emphasis added],即使在小样本和短时间窗口内。 我们能够仅使用电话元数据来推断医疗状况、枪支所有权等,” [Jonathan Meyer, a Stanford computer scientist] 说过。

事实上,元数据是如此具有启发性,据 纽约杂志的每日情报员,

“当你记录谁与谁交流的所有这些记录时,你可以为世界上的每个人建立社交网络和社区,”数学家和 NSA 举报人 威廉·宾尼(William Binney)——“历史上最好的分析师之一”,因隐私问题于 2001 年离开该机构——告诉 Daily Intelligencer。 “当你把它和内容结合起来时,”他确信 NSA 也在收集这些内容,“你就可以对这个国家的每个人施加影响。”

在一个强有力的思想实验中,杜克大学的社会学家 Kieran Healey 展示了 英国人怎样通过仅使用有关社交俱乐部及其成员的元数据进行社交网络分析来阻止 Paul Revere

有什么外卖?

当发送电子邮件和与他人交流是现代生活中不可回避的事实时,有关这些互动的信息构建了一个非常完整的我们以及我们与谁交往的档案,并且可能会泄露我们宁愿保密的秘密。

你可以采取一些小措施来让人们远离你的元数据气味,可以这么说。 为了 example,您可以使用一次性电子邮件地址和一次性手机,当然以现金支付。 您还可以使用 DuckDuckGo 等匿名搜索引擎并在不使用 cookie 的情况下进行浏览。 不幸的是,对大多数人来说,做所有这些都是不可行或不可持续的。 另外,除非你所有的同事都采取这样的措施,否则这些方法只能隐藏这么多的元数据。

值得庆幸的是,VPN 可以在掩盖您的元数据方面发挥作用。 当您使用 VPN 时,您有效地将您的 IP 地址和位置隐藏在 VPN 服务器的 IP 地址后面。 不要忘记 IP 地址包含很多信息——它们可以向您与之交互的任何网站或服务透露您的位置(以不同程度的准确度)和您的 Internet 服务提供商。

最有可能的情况是政府和其他第三方将继续不加选择地收集我们的元数据。 毕竟,知识就是力量,正如宾尼在上面引用中所说,这种知识可以用来对付你。

我不想想象我的元数据将来会怎样被用来对付我。 为了 example,如果健康保险公司可以访问我过去的谷歌搜索,并且可以根据旧的搜索查询拒绝我的承保怎么办? 电子商务网站已经以不同的价格出售商品,这些价格取决于他们的邮政编码,这些邮政编码是使用 IP 地址计算出来的, 正如《华尔街日报》上的这篇文章所报道的. 如果我住在人均收入较高的邮政编码区怎么办? 我应该为此受到惩罚吗?

归根结底,元数据是生活中不可否认的事实,它的力量绝对是我们都应该意识到的。 每次访问网站或发送电子邮件或短信时,我们都会留下数字痕迹。 虽然看到像 Immersion 这样的工具怎样通过电子邮件元数据对您的生活进行交互式可视化是很有趣和有趣的,但在坏人手中,它有可能被用来对付我们。 这是我们不应该忘记的。