【翻】AI is sleepwalking us into surveillance

为了提高英语水平和保持技术成长,开始按计划翻译一些短篇和博客,有问题欢迎讨论👻
原文:AI is sleepwalking us into surveillance
原作者:Arvind Sanjeev

正文

在2020年,一张女人坐在马桶上的照片在网上遭到泄漏,这个事引发了巨大的争议。Roomba J7 吸尘器机器人拍摄了这张照片,用作日常数据收集的一部分。这只是一系列照片中的一张,这些照片有拍摄了整个家庭、物品和生活中的一些人。然后有一群来自委内瑞拉的临时工为训练 AI 模型负责标注图片,他们收到了这些图片并泄漏到网上。



为了让每个新的AI模型比上一个模型更好时,公司不惜采用不道德的数据收集技术,以便让自己在竞争中脱颖而出。我们的私有数据,包括医疗记录、照片、社交媒体等内容,都被纳入用于训练AI模型的数据集中。

Your data is being stolen

你愿意为了方便而放弃隐私吗?

Reading all the privacy policies you encounter in a year from big tech companies would take 30 full working days of your life.
Source: The cost of reading privacy policies

家是我们安全的地方,但如果家里的电器开始泄漏我们的数据,会发生什么?数据调查记者 Kashmir Hill 和 Surya Mattu 揭示了我们家里的智能设备是如何做到这个的。最初,你的电动牙刷会经常发送数据到它的母公司,然而,在2018年的 TED talk 中揭示了这些收集的数据会反过来影响我们。比如,你的牙科保险公司可以从这些牙刷公司中购买你的数据,如果你晚上没有刷牙,就会收取更高的保费。

用于训练图像合成的 AI 模型的数据集是通过在网上搜寻图像制作的,这些图像的版权所有者和持有人可能同意或者并没有同意允许使用。甚至病人的私人病历也会成为AI模型的训练数据。来自加利福尼亚州的艺术家 Laping 发现,她的医生在2013年为她拍摄的病历照片被收录到 LAION-5B image set,这是 Stable Diffusion 和 Google Imagen 使用的 data set。她通过Have I Been Trained发现这一点,这个工具是 Holly Herndon 的一个项目,任何人都可以通过该工具查看自己的照片是否被用于训练 AI 模型。

The LAION-5B dataset, which has more than 5 billion images, includes photoshopped celebrity porn, hacked and stolen nonconsensual porn, and graphic images of ISIS beheadings. More mundanely, they include living artists’ artwork, photographers’ photos, medical imagery, and photos of people who presumably did not believe that their images would suddenly end up as the basis to be trained by an AI.
Source: AI Is Probably Using Your Images and It’s Not Easy to Opt Out, Vice

Compromised identities

研究证明,AI 生成的面部图像可以通过逆向工程的方式揭示出其真实人物来源

现在,AI生成的人脸已成为主流。设计师把它们用为作品拍摄的模特或者假人。因为他们认为既然这些人不是真人,就不用征得他们的同意。然而,这些生成的人脸并不是独一无二的。2021年,研究员可以把 GAN 生成的人脸回溯到原始人脸上。因为这些生成的人脸和原始的人脸相似,只是略有感动,通过这些数据集就暴露了那些人脸的真实身份。

与GAN不同,像 DALL-E 或 Midjourney 这样的扩散模型产生的图像被认为更接近真实,并且与训练集中的图像显著不同。通过生成新图像,他们提供了一种保护数据集中个人隐私的方式。然而,一篇名为 Extracting Training Data from Diffusion Models 的论文展示了扩散模型如何从训练数据中记忆单个图像,并在运行时重新生成。人们普遍认为 AI 模型是一个“黑盒子”,里面什么都没有,但通过这些实验,人们需要重新审视这一观点。

AI surveillance

通过 AI 加强社会的监控

最具争议的智能监控案例之一发生在2019年香港抗议活动期间。警方使用面部识别技术来识别抗议者,并对他们进行单独处罚。抗议者意识到这一点后,于是使用黑客激光笔瞄准摄像头,烧毁那些摄像头的图像传感器。

全世界一半的监控摄像头都在中国,使中国成为世界上最大的监控社会。他们利用摄像头对乱穿马路者进行罚款,或利用面部识别技术进行机场安检。虽然基于 AI 的监控系统看似是打击犯罪和恐怖主义的重要工具。但却引发了有关隐私和公民自由的担忧。这些系统指向了 Orwellian 式的未来,Big brother 可能会监视并控制个人,潜在地丧失自由和公民自由。

Who’s fighting back?

对于侵犯隐私的 AI,美国联邦贸易委员会(FTC)给出了一个带有挑衅性的答案。他们已经开始实践算法摧毁。他们要求公司和组织摧毁其恶意或非法收集的个人信息和数据建立的算法或AI模型。以下是一些倡议的例子:

Policies and frameworks

欧盟在AI时代保护个人隐私方面迈出了重要一步。他们支持禁止在公共场所进行AI监控的方案。欧盟广受欢迎的 General Data Protection Regulation 也拥有最佳的数据保护条例,该条例要求在收集和使用个人数据前需征得个人同意。

加拿大的 Personal Information Protection and Electronic Documents Act (PIPEDA) 要求企业采取“合理的”安全保障措施来保护个人信息。而在美国, California Consumer Privacy Act (CCPA) 是一部全面的隐私法,赋予个人询问组织收集个人信息,如何使用以及用于何种目的的权利。

Projects and experiments

  • Have I Been Trained:一个可以轻松搜索我们的数据是否被用于训练AI的平台。上传你的照片,查看是否被进入到扩散模型的数据集中。这是一个名为 Spawning.ai 项目中的一部分,该项目让人们重新掌控自己的数据。他们还在开发“选择退出”和“选择加入”的工具,让你能够决定是否将你的数据用于训练。
  • Microsoft Synthetic Faces:微软提供了100,000张合成人脸,用于训练脸部识别算法,而无需使用真人。

  • AI Camouflage:可加入一些对抗性补丁,嵌入到衣服或其他物体中,用于干扰AI分类系统


  • Adversarial Makeup:通过化妆干扰AI分类系统,使你在系统中变得难以辨认。CV dazzle 还在 Youtube 上提供化妆教程:
  • Alias:Bjørn Karmann 提出的隐私干预方案可以阻止语音助手监听你的声音。

《New Dark Age》中,James Bridle对AI监控如何将临床偏执症变成现实发表了评论。临床妄想症的最初症状之一就是认为有人在监视你;但现在这种想法是合理的。我们发送的每一封邮件、写的每一条短信、打的每一通电话、走的每一段路、迈出的每一步、呼吸、做的每一个梦、说出的每一句话,都成为大规模的自动智能收集系统的目标,社交网络和垃圾邮件的排序算法以及我们自己智能手机和联网设备不眠不休的监视。那么,现在是谁在偏执呢?

有关此主题及其他主题的更多资源,请查阅本手册《AI’s unintended consequences》。本文是探讨 unintended consequences of AI 四部系列文章中的第三章