每天,在我们没有意识到的情况下,我们为自己的目的发布的图像、文本和其他数据都被无数外界的眼睛仔细审查和收集,用于我们不知道的目的,如果我们知道它们,通常也不会同意。这种收集和分析的过程被称为“数据抓取”或“网络抓取”。尽管抓取会毫无顾忌地凌驾于人们的意志之上,并将他们的贡献纳入他们会拒绝的计划中,但科技行业的大多数人认为抓取是网络技术日常运营中无处不在、不可避免的一部分。一些人声称它可以被利用为一种向善的力量,即使它赋予了数据经纪人、监控技术商人以及自动化和算法管理形式的能力。是否可以辩护?有必要吗?它应该被完全取缔,还是在没有任何规定的情况下允许?
抓取与“网络抓取”相关但又不同,例如,谷歌和 Archive.org 使用它来收集网页内容。虽然网络爬虫通常意味着对网站内容进行索引的已知和预期过程,以便人们可以找到它们,并且可以被平台阻止,但“抓取”旨在从页面中提取数据以进行进一步处理,其专有目标是可能与信息的原始上下文无关,通常不会被用户或平台阻止。有点像窃听或其在线等价物,键记录,“抓取”意味着部分或完全秘密的数据收集形式。抓取的基本思想中隐含的是,数据被放入不同的形式,然后转变为与用户或站点管理员想要的不同用途。这种二次使用或分析将抓取与黑客入侵网站以获取(或更常见的是复制)数据的密切相关活动区分开来。
不管它的用途如何,抓取听起来像是一种侵入性的黑客攻击——因为它是
该技术通常用于金融行业,用于跟踪社交媒体中对公司股票的提及或跟踪对公司的公司行为及其接收情况的提及等看似良性的用途。它通常用于跟踪人力资源管理的各个方面,包括有多少人正在换工作或表示有兴趣这样做。一些数据经纪人大量使用这个过程,在某些情况下显然是在通过该方法获得的数据上构建他们的整个产品。
数据经纪行业笼罩在一片神秘之中,不仅未经用户许可,更不用说他们不知情,从用户那里获取数据,而且拒绝向客户说明其数据来源。该行业的做法长期以来一直受到质疑。调查记者 Julia Angwin 在2010年与华尔街日报合着了一篇文章,提请注意数据经纪人及其对抓取的使用;当她发现媒体研究公司尼尔森正在收集有关在讨论板上发帖的人的心理健康状况的高度个人信息时,尼尔森表示这种做法已经停止。与此同时,上周,参议员伊丽莎白沃伦、罗恩怀登和其他人提出了一项法案,试图阻止可能从“在线研究生殖健康保健、更新经期跟踪应用程序”的用户那里收集数据(包括抓取的第三方数据)的数据经纪人,或将电话带到医生办公室,”鉴于美国最高法院对罗诉韦德的迫在眉睫的威胁,所有这些都引起了极大的关注。
然而,刮擦不仅用于产生经济利润或直接伤害弱势群体。学术研究人员、记者和活动家还收集数据以分析和更好地了解机构和人群的做法,例如地主或白人至上主义者,或限制虚假信息网络的性质和范围。其中一些用途非常温和,很难想象会阻止它们: 《纽约时报》和其他报纸一样,从地方政府和报纸上搜集选举结果,以收集全国数据; 《纽约时报》在 GitHub 上发布了其爬虫的代码。华盛顿大学研究员凯特·斯塔伯德(Kate Starbird)对虚假信息和极右翼的许多调查可能更具争议性——因为他们将数据与创建者的意图相反——他们有时使用抓取来收集和分析有关连接的数据极右翼虚假信息推动者和传播虚假信息的网站之间。数据新闻网站The Markup对其宝贵的工作使用抓取方法,包括它开发的“ 公民浏览器”应用程序,由 1000 多名付费参与者安装,以收集和分析 Facebook 未公开发布的广告实践数据。
不管它的用途是什么,对我们大多数人来说,抓取听起来像是一种侵入性的黑客攻击——因为它确实如此。然而,抓取被广泛用于各种目的,并且被科技行业的许多人视为一种合法的做法。比我们许多人意识到的更多的网络是通过抓取来运行的。这给思考如何规范、立法甚至构建基于网络的技术带来了问题。阻止此类第三方访问需要非常复杂的机制来区分普通用户和爬虫。虽然可以通过编程方式阻止某些表单——有许多商业和开源软件工具可供网络提供商安装以防止抓取,而像 Captchas 这样的熟悉功能的存在部分是为了阻止不需要的抓取——抓取工具总是在构建更复杂的工具,引发刮板和阻止技术之间的军备竞赛,这些技术与打击垃圾邮件和执行内容审核的努力很相似。
抓取工具经常声称授权是多余的,因为他们访问的数据名义上是“公开的”。监控技术公司 Clearview AI 的首席执行官 Hoan Ton-That 经常证明该公司的做法是合理的 ,称其“仅从开放互联网收集公共数据并遵守所有隐私标准和法律。”根据克什米尔希尔在 2020 年的《纽约时报》报道,该公司从互联网上收集了“人们的面部图像,例如就业网站、新闻网站、教育网站以及包括 Facebook、YouTube、Twitter、Instagram 甚至 Venmo 在内的社交网络”尽管事实上 “这些公司的代表表示,他们的政策禁止此类抓取,而 Twitter 表示已明确禁止将其数据用于面部识别。”
抓取无视上下文完整性,并声称有权吸入整个数据集并对其进行处理
围绕这种公共性的规范经常引起争论,尤其是在 Twitter 方面,关于新闻媒体是否可以在未经用户同意的情况下引用用户的公开推文存在一些争议。隐私学者海伦·尼森鲍姆(Helen Nissenbaum)在写“上下文完整性”时提到了这个问题:用户倾向于认为宣传应该只在他们能够预期的上下文范围内进行,尽管工具可以让闯入者轻松地做更多事情.
抓取无视上下文完整性的主张,而是主张吸入整个数据集并对其进行处理以供他人使用的权利。也就是说,抓取工具声称以面向用户的形式公开的数据也以其算法形式公开:用户不仅同意发布他们的推文,而且还同意发布所有推论、后处理、和分析数据服务可能根据他们的推文进行的分析,这通常远远超出大多数用户的理解。
正如我在 2018 年所说,我们不知道“个人数据”是什么意思。换句话说,社交媒体用户对他们生成的数据以及平台上关于他们的数据的用途了解有限。人们很自然地认为,将图片或推文发布到公共订阅源仅仅意味着其他用户可能会查看它。我们可能知道也可能不知道或赞成其他观众,但这似乎是故事的结局。因此,用户可能会假设他们的帖子的内容和形式在他们发布之后保持不变。但他们没有考虑这些帖子如何变成专家所说的衍生和推断数据,这两个类别有助于进一步的算法处理,包括机器学习等人工智能技术。
使用各种技术,可以使看似与一件事有关的数据可以揭示许多其他事物。电话上完全“匿名”的位置数据可能很容易与居住在经常找到电话的地址之一的唯一人相关联。购买一些产品而不是其他产品可以揭示一个人的家庭构成。在更极端的情况下,这也是数据经纪人行业蓬勃发展的情况,显然无害的数据,如一个人喜欢的音乐,可以揭示他们的宗教背景和政治背景( 据说剑桥分析公司以前做过它被停业了)。公平地说,许多人可能愿意分享他们喜欢 BTS 的事实,而完全不知道他们也在分享他们的投票行为。
这就是选择术语“抓取”来描述这种数据收集形式所隐含的暴力本质:将数据从一个上下文中移出并强制进入另一个上下文的过程,我们不再以任何方式控制数据的使用方式,从中推断出什么含义,一开始是否“准确”,其扩展用途是否准确。刮板者对同意的漠不关心不仅意味着他们的方法在道德上令人怀疑,而且他们的数据和结果也受到污染并且在概念上不可靠。任何从抓取数据派生的应用程序都带有这种污名。
Clearview AI 的抓取做法现在正受到立法者和数字权利倡导者的严格审查,其倡导者和批评者提出的论点有助于说明有多少关于“隐私”和“言论自由”的常见直觉并不总是为我们服务当应用于新颖的数字环境时。
迄今为止,涉及抓取的最突出的法庭案件涉及一家名为 hiQ 的小型数据服务公司,该公司起诉 LinkedIn,因为它能够从 LinkedIn 的平台上抓取数据。根据法庭文件,LinkedIn 使用多种手段来保护其用户免受抓取和相关技术的侵害,包括超过 20% 的所有活跃用户使用的“不广播”选项,以及防止抓取的“robots.txt”文件由许多实体(尽管它允许 Google 搜索引擎进行网络抓取)和技术手段(包括它称为 Quicksand 和 Sentinel 的手段)检测和限制“指示抓取的非人类活动”。尽管有这些保护措施,hiQ 还是设法为客户提供了两项基于抓取 LinkedIn 数据的服务,其中一项服务“旨在识别面临被招聘风险最大的员工”,另一项帮助“雇主识别劳动力中的技能差距,以便他们能够在这些领域提供内部培训。” 2017 年,LinkedIn 向 hiQ 发出了一封停止函,声称其运营违反了 LinkedIn 的服务条款以及加利福尼亚州和美国的一些联邦法律。
2019 年第九巡回上诉法院的裁决(于 2022 年 4 月确认)命令 LinkedIn 允许 hiQ 继续其抓取业务。它表示,“几乎没有证据表明,选择公开个人资料的 LinkedIn 用户实际上对他们公开发布的信息保持了对隐私的期望”,并且“即使一些用户在他们的信息中保留了一些隐私权,尽管他们决定公开他们的个人资料,但在我们面前的记录中,我们不能得出这样的结论:这些利益……足以超过 hiQ 继续其业务的兴趣。”
也许令人惊讶的是,这一决定受到了公民自由和数字权利倡导者的欢迎,被描绘成“互联网自由”和“开放网络”的胜利,因为其中一些团体肯定了刮擦的权利,抓住了他们认为对社会有益的用途案例,尽管像 hiQ 这样滥用隐私和同意的案例更为普遍。例如,如果你认为电子前沿基金会“在数字时代捍卫你的权利”的目标意味着拒绝僵化的“公众即公众立场”,那你就错了:它庆祝 hiQ 的胜利,主要是因为它破坏了《计算机欺诈和滥用法》 ,这是网络自由主义者最喜欢的目标,他们认为很少使用的法律将普通和非冒犯性行为定为刑事犯罪(司法部最近发布了指南,澄清不会起诉此类行为),而且还因为它支持分析“公共”数据而不是保护它的权利。
刮板者对同意的漠不关心意味着他们的数据和结果在概念上是不可靠的
其他组织也采取了类似的立场,为不同的政治服务。就在最近的hiQ裁决前一个月,美国公民自由联盟和全国有色人种协进会的南卡罗来纳州分会起诉南卡罗来纳州法院管理局禁止抓取逐县的法律文件数据库,声称“受第一修正案保护的访问和记录权利这些公共法庭记录用于这些目的。”当然,全国有色人种协进会声称需要访问这些记录来挑战将租户驱逐出家的说法是令人信服的。正如原告所说,“研究人员、记者和监管机构广泛使用数据采集来捕获和评估网站上的人口级别数据,而使用手动方法收集这些数据是不切实际的。”
然而,正如hiQ案例所显示的那样,这些相同的论点不仅被社会正义倡导者所使用,而且在面对相对明确的用户请求停止时,其产品建立在侵犯隐私之上的公司也使用了这些论点。在 ACLU/NAACP 的诉讼和hiQ的一些报道中,活动人士都认为,他们所代表的“研究人员”和“学者”只打算将抓取技术用于“好的”用途。但是,他们形成了一个独立的诚信运营商类别,这些运营商对抓取数据的需求与企业隐私入侵者的需求完全不同,这一想法需要更多的审查。尽管美国公民自由联盟/全国有色人种协进会文件毫无疑问是诚实的断言中明确的反种族主义目的,但很难看出他们的法律论点如何不完全适用于提供数据的数据经纪人之一对房东进行“租户筛选”,他们很可能会将简单的驱逐申请——无论是否合理,最终判决是否有利于租户——视为一个危险信号。
即便是片刻的反思也会发现,事实上,学者和研究人员自己在很多事情上都没有达成一致。此外,从 Facebook/Meta 这样的大型公司到小型初创公司,许多学术和非营利机构都非常努力地支持商业利益。众所周知,Cambridge Analytica 以斯坦福商学院教授Michal Kosinski的工作为基础,他在学术研究中开发侵入性或有争议的技术方面有着令人不安的历史。 “我的大部分研究都旨在作为警告,” 他说,尽管如此,他还是很好地描述了如何做他据称警告不要做的事情,包括从面部识别确定政治方向,推断“国家的个性”,以及声称面部识别可以用来 推断性取向。阅读科技记者Issie Lapowsky 2018 年的故事时很难得出结论,即使用抓取的数据进行的学术研究使剑桥分析公司的行为矫正产品成为可能。许多其他潜在的行为修改提供商——可能包括 Cambridge Analytica 阴暗的继任公司,以及像 Peter Thiel 的Palantir这样的数据挖掘公司——继续在世界各地开展业务,相对不受惩罚。努力去理解和列举,更不用说规范,这些公司已经证明是非常困难的。
这些相互矛盾的趋势在 ACLU 对 Clearview AI 提起的诉讼中达到了顶点,该诉讼称通过抓取照片侵犯了用户隐私。该诉讼最近达成和解,部分基于伊利诺伊州生物特征信息隐私法,该法案要求对伊利诺伊州公民进行面部识别以及其他形式的生物特征收集的同意。值得注意的是,在没有类似法律的州,美国公民自由联盟和其他数字权利倡导者采取了不同的立场。例如,在南卡罗来纳州的案例中,美国公民自由联盟没有将同意作为一个重要的考虑因素,并且通常反对禁止几乎肯定会产生与伊利诺伊州案例相同类型的问题的那种抓取。在hiQ案中,美国公民自由联盟是众多庆祝商业数据收集者“自由”违反普通民众意愿的团体之一。
Clearview 辩称,由于第一修正案的保护,其产品不能受到监管, 大多数法院都拒绝了这一论点,并受到 ACLU 本身的批评。但它受到了著名的第一修正案律师的推动,包括弗洛伊德艾布拉姆斯,他在Citizens United中加入了 ACLU,认为限制竞选支出是违宪禁止言论。 Clearview 的立场也得到了一些右倾法律思想领袖的支持,例如Reason的自由主义者,他们将第一修正案部署为抵御技术监管的盾牌。正如玛丽·安·弗兰克斯 (Mary Ann Franks) 在她的《宪法崇拜》一书中所展示的,美国公民自由联盟经常与 EFF 和其他“数字权利”组织一起以似乎有利于侵入性公司利益的方式制定和反对隐私法。
在其和解公告中,美国公民自由联盟庆祝“Clearview 在全国范围内被永久禁止向大多数企业和其他私人实体提供其面部指纹数据库。”然而,Clearview 及其拥护者以不同的方式解读仍悬而未决的和解。正如《卫报》 报道的那样,艾布拉姆斯声称,它“不需要对公司的商业模式进行任何重大改变,也不需要禁止其目前从事的任何行为。”
双方都宣布了明确而明确的胜利,但几乎完全不同意胜利的含义,这在科技监管和诉讼中并不少见。它表明,当我们试图将它们应用于数字技术时,我们对“私人”、“公共”、“同意”和“表达”等基本概念的基本(主要是数字化前)直觉并不总是对我们有好处。也许需要全新的概念,或者需要新的方法将我们的旧概念扩展到新环境。
不仅是行业本身,一些追求多重政策目标的数字版权组织也经常发现自己站在提倡和批评刮擦的两头。就 ACLU 而言,它源于一个拥有许多部门和许多州级分会的全国性组织。但它也指出了一个长期以来至少让少数学者感到沮丧的问题:ACLU、EFF 和其他组织如何为未来而战,以及数据与社会、伯克曼中心和麻省理工学院媒体等准学术组织Lab 将自己确立为保护“数字时代的人权”的首选来源。其中一些组织——实际上是大多数组织——与技术开发商和技术公司的关系模糊不清(例如,EFF 在其标语中将“创新”列为其核心价值之一,更典型地是公司游说而非公民的强调点权利组织),并且他们经常对组织以外的人做出不屑一顾的行为,尤其是那些意见与他们自己精心制定的立场声明不一致的人。
刮痧是滥用吗?某些案例,例如 Clearview AI,确实看起来如此,但作为一般原则,我认为公平的观察者无法真正回答这个问题。作为数字媒体的用户和观察者,我们的知识太有限了。我们需要迄今为止主要在欧盟实施的那种强有力的监管制度,甚至开始判断抓取的道德和政治:要求数据经纪人和抓取工具明确他们在做什么甚至可能注册他们的业务的法律和法规,正如佛蒙特州试图让他们做的那样。我们需要更好的抓取和类似抓取活动的类型,以便我们可以开发更丰富的同意共享数据以及分析和处理该数据的帐户。数字权利倡导者需要为消费者、学者和其他人留出更多空间,以加快了解我们数据的各种使用方式,并权衡什么符合和不符合我们对隐私、宣传和尊严。
Liz O’Sullivan 促成了这篇文章的早期版本。