最近,Hugging Face 的一组数据科学家创建了一个由 Bluesky 精选帖子组成的数据集。这一数据的公布让很多人非常愤怒,并被广泛认为是一个糟糕的举动。该数据集包含来自Bluesky firehose 的 100 万篇帖子,旨在将其作为评估各种审核工具有效性的标准数据集。该数据集在发布后数小时内就被删除,但社区已经受到损害。
今天,我将讨论人工智能所涉及的细微差别,并深入探讨这些数据集中的帖子的“危险”。我还将介绍该数据集的社会/伦理影响,为什么人们强烈反对它,以及坦率地说如何可以更好地处理它。
在我们开始之前,我想澄清一下,我没有“支持人工智能的偏见”,我想把这个泥球拆开,讨论一下人工智能是什么、数据集是什么以及如何技术与社会压力的交叉正在造成社会尚未准备好应对的道德困境。
然而,其中一些细微差别只能来自对正在讨论的事情有丰富经验的人。由于我的工作让我学会了如何使用它,我已经成为很多生成人工智能方面的专家。当谈到这项技术的社会影响时,我不是一个专家,但我会尽我最大的努力来解决让我感到不舒服的问题。
技术
我运行时间最长的项目之一是《Techaro》 ,这是一部艺术/讽刺作品,我在其中虚构了一家科技初创公司,并写下了人们在那里工作的不幸经历。
这要么是我最成功或最不成功的项目之一,因为我在 LinkedIn 上将自己标榜为这家非公司的首席执行官,而现在市场对待我的态度就好像我是一家真正公司的首席执行官一样。我让人们寻求投资机会。
这是否意味着Techaro作为一个模仿品是失败的,还是作为一个品牌是成功的?我不知道,我只是想取笑我的行业。
我已经有一段时间没有真正写过任何 Techaro 故事了(我所有的想法都是由实际的初创公司完成的,比如Devin完成的Protos ,而我正在写的一个故事还没有得到足够的讽刺效果)但当我这样做时,我会尝试遵循一个基本规则:Techaro 作为一家公司并不是故意邪恶的,它只是没有考虑其行为的道德影响,最终创建了事实上邪恶的系统。
考虑一下 qntm 的Lena 。这是一个与心灵上传无关的故事。这是一个关于人的故事,以及使用技术解决问题的压力如何能够并且将会导致不可预见的后果。这就是为什么我一直称这条规则为“Soylent Green is People”。是我们人类利用技术并用它来做坏事,而不是技术本身。引用 G-Man 的话搞砸了:
在错误的地方使用正确的工具可以使世界变得不同。
我要在此声明,我不认为像 ChatGPT 这样的工具本质上是邪恶的,但由于它们的使用方式,它们最终确实造成了事实上的邪恶。这最终可能导致事实上的邪恶超过了该工具所做的好处,使得该工具的全部意义看起来都是邪恶的。
垃圾邮件及其后果对人类来说是一场灾难
ChatGPT 看起来邪恶的原因非常复杂,我将不得不在这里绕一些弯路来解释它,但请相信我;一切都按照惠鹤的计划进行。
译者注:keikaku 的意思是计划。
对于人类生产的所有东西,有一个普遍的经验法则:90% 的东西绝对是垃圾,应该被忽略。对于已发表的作品、电子邮件和社交媒体帖子来说更是如此。所发布的绝大多数内容要么是广告,要么质量不够高,无法吸引人。
与此同时,我们的社会沉迷于信息。现在,您可以从渥太华的家中向台湾的服务器发送消息,并在几秒钟内得到回复。这绝对是一个技术奇迹,我担心比我年轻的人都认为这是理所当然的。在我成长的过程中,长途电话服务仍然是一件事,你必须确保拨打正确的号码才能给区号之外的人打电话,否则你会因为长途电话费而大吃一惊。
随着如此多的人加入如此多的沟通渠道,公司意识到他们可以通过这些沟通渠道向人们发送消息。这就是为什么我们有垃圾邮件、垃圾邮件以及现代互联网上所有令人讨厌的东西。
我的意思是,我现在处于营销职位,因为我还没有找到对我的简历进行关键词挖掘以通过人力资源筛选或其他东西的最佳方法。我在这里有很大的偏见。
从历史上看,发送垃圾邮件意味着它们会进入目标的收件箱,然后很可能会被阅读。这就是垃圾邮件如此有效的原因。如果您发送一百万封电子邮件,很可能会有一些人点击您的链接并购买您的产品。这是一个纯粹的数字游戏。
然后出现了垃圾邮件过滤器的第一个实现。发送到同一域上的许多邮箱的相同邮件会被标记为垃圾邮件,然后不会放入人们的收件箱中。这是一件好事,但实施它的人引发了一场我们今天仍在进行的军备竞赛。垃圾邮件发送者引入了 spintax 等技术,他们可以发送一百万封略有不同的电子邮件,因此(希望)不会经常被标记为垃圾邮件。考虑一下这个完全捏造的例子:
你好{先生|女士|亲爱的|人类},
我{在市场|寻求购买|想要购买} 35 部{iPhone|三星 Galaxy S25 手机|Vision Pro 耳机}。您可以通过 {WhatsApp|Signal|Telegram|Kik} 与我联系,以便我们协助购买吗?您将因帮助实现这一目标而{奖励|非常有用}。
用管道分隔的大括号中的每一个单词都是可以形成消息的新变体的地方。我编的一个例子至少有 120 种变体。如果您要发送一百万封包含该消息的电子邮件,那么您有百分之一的机会收到相同的消息两次。这就是为什么现在垃圾邮件过滤器如此激进。
更糟糕的是,即使你有真阳性率,你也有假阳性率需要处理。有多少次真实的电子邮件被驱逐到影子领域?这种情况经常发生在我身上,我相信它也会发生在你身上。
一般来说,对于每条真正由人工撰写的消息,我会收到大约 50-100 条自动消息。大多数自动消息都很好(发票、警报等),但我最想看到的是直接的人际接触。我想要的不仅仅是关于你的人工智能产品有新功能的新闻通讯。
我确实订阅并积极阅读了一些时事通讯,我只是希望注册测试工作服务并不意味着我每个月都会收到有关该服务推出的新人工智能功能的时事通讯。我还受到营销服务广告的轰炸,因为我在 LinkedIn 上错误地将自己标记为首席执行官。这是垃圾邮件2之类的。
垃圾邮件是一场持续不断的战斗。全球范围内的产品和营销人员数量比致力于防御这些产品/营销人员的产出的人员还要多,更不用说 419 诈骗以及那些让您知道您中了帕劳联合国彩票之类的诈骗了。这是一场无法获胜的战斗,但我们必须战斗,因为失败意味着互联网变得真正死亡和无法使用。
然后在 2022 年 12 月,当火烈国袭击时,一切都改变了。
人工智能泡沫
2022年12月,OpenAI发布了ChatGPT的第一个版本,随后爆红互联网。他们很快就创造了从产品发布到每月活跃用户达到 1 亿的最快时间的任何%记录。此前的纪录保持者是 9 个月的 TikTok。 ChatGPT 在 2 个月内完成了。
这是不真实的。这是前所未有的。这种猛烈的爆炸式增长绝对打破了互联网,但也打破了为其提供资金的人们的期望。人工智能泡沫诞生了。
我已经成为 IRC 用户很长时间了,现在已经超过我人生的一半了。众所周知,IRC 用户要做的一件事是建立一个聊天机器人,它会监听所说的一切,并用它来构建马尔可夫链,这是一种获得所说内容的概率平均值的方法。马尔可夫链并没有什么真正神奇的地方,除了有时机器人绝对会以一种如此完美的方式来烘烤某人,以至于感觉机器人是一个人。然后机器人开始说一些不合语法的废话,幻想立即破灭,每个人都像什么都没发生一样过着自己的一天。
马尔可夫链玩起来很有趣(对于那些刚刚进入职业生涯的人来说,实现起来非常简单,是家庭作业),但它们并没有什么用处。它们是一个玩具,但你无法向它们提出问题并从它们那里得到连贯的答案。
ChatGPT 让您只需输入问题即可获得答案。你只要问它:
嘿咪咪,天为什么是蓝色的?
啊,一个有趣的问题!由于瑞利散射现象,天空呈现蓝色。白天,阳光进入地球大气层并与其中的气体分子碰撞。这些碰撞对较短波长(蓝色)的散射比对较长波长(红色)的散射更有效。这就是为什么我们大多数时候看到的天空是蓝色的。如果您对科学相关主题还有任何其他问题,请告诉我!
AI 使用模型 Hermes 3 8B @ Q4 生成的内容。
我知道现在这对你们来说很正常,但是当它第一次发布时,这是一个惊人的巨大发展。 GPT-2 已经是一件大事,GPT-3 给我们带来了像无限 Seinfeld 流这样的奇迹,但 ChatGPT 完全改变了游戏,因为你只需问它一个问题就可以得到答案。您不必像已经在进行对话一样设置提示格式。它的行为就像 iMessage 一样。
这真是令人费解。感觉是无限的,可能性也是无穷无尽的。
我本质上是一名艺术家,所以我尝试用它做的第一件事就是弄清楚如何用它来创作艺术。这些实验尚未发表,因为我觉得它们还不够好。当然,它很好地告诉您在给定模式下对特定表进行特定查找的 SQL 语法是什么(这就是我最终使用 AI 工具的目的,因为由于工作需要,我经常在工具之间切换) ),但它对于艺术作品来说并不普遍有用。
垃圾邮件
然后垃圾邮件就开始了。通常情况下,内容营销人员和任何网站都必须将写作和劳动力外包给第三世界国家,以撰写关于橙汁或其他东西的冥想益处的毫无意义的文章。现在他们可以要求 ChatGPT 为他们写文章。免费。
橙汁对于冥想的提神功效
橙汁颜色鲜艳,味道清爽,不仅是令人愉悦的早晨饮料,也是增强冥想练习的强大盟友。这种天然的灵丹妙药富含必需的营养素和维生素,具有许多好处,可以提升您的正念体验。 […]
AI 使用模型 Hermes 3 8B @ Q4 生成的内容。
不过,这样做的一个大问题是,基本上不可能判断某些东西是否是人工智能生成的,尽管事实上你可以付费提供服务来检查它。在所有条件相同的情况下,您预计任何随机选择的人都有大约 50% 的机会准确猜测任何给定的测试块是否由 AI 生成。如果没有正确的狡猾的话(深入研究等),或者人工智能模型通常以他们所说的内容的摘要结束这一事实,未经训练的人类很难判断某些东西是否是人工智能生成的。他们有大约 50% 的机会做对,这与随机机会相同。
即便如此,部署这些探测器也意味着你不小心创建了一台种族主义机器。如果英语不是您的母语,那么有些文体模式对于人类来说基本上是不可见的,但对于机器来说却非常明显。这导致真正的人类作者被标记为人工智能生成,因为他们的写作方式与英语为母语的人不同。再加上违反直觉的统计数据和普通人的计算能力,你就会发现灾难的根源。
人工智能书面言论检测器不仅是一种服务,而且还惩罚像我这样多产的作家。我的博客位于 ChatGPT 的数据集中,我已经写了足够多的内容,现在我写的所有内容都显示出人工智能生成的利润率很高。这就是为什么我永远无法回到大学;因为即使系统中的每个人都知道人工智能探测器是胡说八道,它仍然会出现在我的记录中,我将不得不向我的每一位教授解释它。
所有这些加起来让 ChatGPT看起来很邪恶,因为它被用来做事实上的邪恶事情,并造成不可预见的后果,这些后果会波及到没有参与该工具的创建或使用的人。
然而,ChatGPT 的发展如此迅速和突然,即使 ChatGPT 背后的团队花时间考虑他们所做的事情的道德影响,但炒作和筹集资金的压力还是胜出。他们在几周内就成为家喻户晓的名字,这正是您作为初创公司所想要的。
我非常确定投资者对人工智能的炒作源于这次的迅速推出。人们想要追逐那条高高的龙,并说他们是其中的一部分。
本地人工智能让情况变得更糟
我想在这一部分开始时说,如果我们确实必须“挑选邪恶”,那么我几乎肯定宁愿选择邪恶,即我们被允许在您可以查看的设备上拥有本地人工智能技术,而不是让它们成为现实。被锁在迪士尼公司的保险库中。这是一个微妙的立场。这些都无法在推文中体现出来。
Mimi 在本文中做出的所有 AI 生成的响应都是在我的 MacBook 或我的家庭实验室中的机器上完成的(通过赞助人 Discord 中的#mimi
中的 Discord 机器人)。一般来说,自托管模型的功能几乎没有(如果有的话)限制。
现在您可以使用Ollama下载模型并在您自己的计算机上运行它们。您可以使用它的 API 与您能想到的任何工作流程集成。您可以在硬件允许的情况下以尽可能快的速度生成尽可能多的垃圾邮件。
我们失去了互联网吗?
这样做有一些可取之处:即文章、电子邮件、通知的摘要,以及对开发人员来说通常有用,可以获取“填补空白”的代码片段来执行诸如编写 SQL 查询之类的琐碎事情。如果您添加工具的使用,那么您可以使用这些模型进行无限的操作。
我一直在开发一个小工具,该工具将通过尝试重新启动受影响的服务并查看是否仍然损坏来响应 pagerduty 警报。这是一件相当琐碎的事情,但真正做到正确却很难;特别是对于本地模型。本地模型有点脑白质切除,并且在工具使用方面很糟糕,可能是因为它是目前最不成熟的功能。
我不知道,我对此有很多双重想法。坦率地说,这些工具非常酷,你用简单的语言描述你想要的东西,它要么会做,要么会给你解释。这真是太神奇了,我喜欢它。但与此同时,这项技术的使用方式正在造成如此多的事实上的邪恶,我想知道人们如何合理化或原谅它。
数据集
现在我们循环回到 HuggingFace 上毫不客气地删除的一百万个 Bluesky 帖子的数据集。
我坐下来起草所有这些内容的一个重要原因是在 HuggingFace 上发布了 Bluesky 帖子数据集。此数据集已从平台中删除,但其目的是提供一百万个帖子,以提供网络的“垂直切片”,以改进审核工具。我们试图最大限度地减少收集的数据,但包括其外观不佳在内的几个因素使其成为一场公关灾难。
顺便说一句,如果你出去找到并骚扰与此数据集有关的任何人,我将与你断绝关系。我不会参与或参与其中。做你想做的事,但请记住,行动确实会产生后果。
对于实际收集了哪些数据以及可以用这些数据做什么,存在相当多的误解。我拿了一份副本并尽快进行分析。据我所知,该数据集中的实际内容如下:
对于数据集中的百万个帖子中的每一个,都有以下字段:
- 帖子的用户 ID(通常是匿名数据,但可用于通过少量工作连接到用户名,例如我的帐户标识符
did:plc:e5nncb3dr5thdkjir5cfaqfe
可以通过前往bsky.app/profile/与我关联做了:plc:e5nncb3dr5thdkjir5cfaqfe ) - 帖子正文
- 创建帖子时的时间戳
- 帖子的 URI(这是其在此数据集中的唯一 ID)
- 布尔值“帖子是否附加图像”标志
- 这是通过 URI 回复的帖子(如果有)
在我看来,这个数据集对于训练生成式人工智能/大型语言模型毫无用处,就像随机的 Reddit 帖子对于训练生成式人工智能/大型语言模型基本上没有用处一样。当你试图让模型做有用的事情时,训练时使用的数据的质量比数据的数量更重要。如果你的指令调整数据集包含太多“低质量”数据,你最终会接受/u/fucksmith关于将奶酪粘到披萨上的讽刺建议,以使其成为福音。
该算法无法理解讽刺。
The Pile 是训练大型语言模型的一个常见数据集,它是 886 GB 不同数据的集合(其中包括安然电子邮件)。它通常用于训练 80 亿个参数模型。说这些东西需要大量的数据才能发挥作用,就像说水使东西潮湿一样。即便如此,The Pile 仍然只包含 1000 亿个代币(取决于您使用的代币生成器等)。
从模型中获取有用信息所需的训练数据量与该数据集中发布的数据量之间存在巨大的数量级差异。它对于训练大型语言模型来说还远远不够。
Pile 被人工智能社区认为是一个“小”数据集。它几乎有 1 TB 的文本,在扩展到“真正的”训练运行之前被认为是“一个好的开始”。我只能开始想知道那会有多大。
这里的规模无法解释。
审核工具和你
来自 Bluesky、Mastodon 或 Twitter 等公共社交网络的数据几乎肯定充满了这些“低质量”的帖子,这些帖子不可避免地会使水变得浑浊,并且很难从模型中获取有用的信息。如果有的话,这个数据集实际上对于制作审核工具很有用,因为它是给定时间点的网络的干净垂直切片。
假设您一直在开发一种能够检测仇恨言论的审核工具。您可以使用该数据集上的审核工具的结果来比较您的方法与其他方法的有效性,并将其用作通用基准。这是一件好事,而且公开也是一件好事,因为否则这些东西将被私下收集和开发,然后人们就没有办法自己评估这些工具。
如果数据不公开,就没有真正的比较点。评估这些工具的有效性变得更加困难。这使得人们更难开发出有助于保护人们免受互联网最恶劣影响的工具。
并没有太多的欣喜
当数据集发布时,看起来并不好看。 Hugging Face 的一位研究人员宣布了这一消息,然后几乎立刻就引起了负面反应。 Hugging Face是一家价值数十亿美元的公司。人们的第一反应之一是,这家价值十亿美元的公司的员工开始利用 Bluesky 的帖子来训练生成式人工智能,而这恰好发生在许多人停止使用 Twitter 的时候,因为Twitter 改变了服务条款,允许该网络根据人们的帖子训练人工智能模型。
街上几乎没有什么欢乐的气氛。
Hugging Face 社区讽刺了那些抱怨自己的数据被包含在数据集中的人们,这让情况变得更糟。人们希望从数据集中删除他们的数据(或者更好的是,选择某种“不跟踪”标头)是完全合理的,而且人们完全有权利希望从数据集中删除他们受版权保护的内容。数据集。
有趣的事实:至少在美国和加拿大,一个人出版或作者的所有内容都受到隐含版权的保护。这意味着删除请求具有法律效力。我不确定这在执行方面是否有先例,但从我所看到的情况来看,公司似乎迫切希望避免这种情况的发生,并将在庭外和解以避免出现这种情况。
很多阻力实际上可以归结为人们厌倦了为了让自己快乐而做的事情,被扔进无限的污水机器,然后被告知工作不再需要他们了。这是一种合理的担忧,尤其是考虑到 Hugging Face 是机器学习模型的 GitHub。天哪,我也有这种恐惧。这些天每次我发布一些东西时,我都会开始想知道我向公众发送的内容中有多少会被用来更容易地取代我。
我的生计是通过认真思考某件事,然后将我的灵魂的一部分向公众展示来实现的。如果我不能再这样做了,因为一台不需要睡觉、吃饭、付房租、生活、生病或组建家庭的机器,可以用 20% 的时间做 80% 的事情成本,我想吃的话到底该怎么办?
在某种程度上,我的热情工作被可怕地破坏并融入了人们索要煎饼食谱的词频模式,而托管它们的公司向机器之神祈祷,希望他们没有得到制作的说明,这感觉像是一种令人难以置信的虐待。芥子气代替。
我几乎想知道这是否是不可避免的,无论我想要什么,它都可能会发生,因为市场会需要它(尽管我不太确定市场对它的使用是否有效或可持续)。
但坦率地说,我认为,如果无论我或互联网上的其他人想要什么,这些数据都会存在,那么最好将数据公开存在,任何人都可以检查它并确保人们受到公平对待。我可以很容易地看到这样一个未来:使用本地托管模型的人们能够提出有关 LGBTQ+ 权利的问题,并得到明显正确的答案,而使用 OpenAI 的人们却被告知“很抱歉我帮不了你,这是煎饼的食谱” ,请不要停止使用 ChatGPT <3″。
这不会是一个好的结局。
该数据集具有人类学意义
像这样的数据集的其他重要用途之一是作为人类学研究的人类快照。我们对历史的许多叙述都是人们查阅主要来源文献(新闻文章、期刊、日记等)然后从中得出结论的结果。在缺乏期刊和日记的情况下,许多人类学家转向社交媒体帖子来了解人们的想法和感受。
此类信息对于了解过去发生的事情非常宝贵,这样我们就可以讲述这个故事,这样人们就不会重复我们所犯的错误。像Archive Team这样的团体一直在努力为子孙后代保护互联网,当社交媒体平台因这个原因而颤抖和消亡时,他们会介入:他们不希望另一个亚历山大图书馆被烧毁并永远消失。
到目前为止,这一点的价值远远超过了滥用的可能性;然而,为了获得最佳效果,您需要收集这些人类学数据,然后将其放入保险库中 25-50 年,然后人们才能开始分析它。美国人口普查被封存72年才可以向公众公布,这是有原因的。 72年后,据统计,大多数接受调查的人要么已经去世,要么不再居住在接受调查时的同一个地方。
但实际上,我们愚蠢地认为阻止一个团体公开收集这些数据不会阻止其他团体秘密收集这些数据。
Soylent Green 是人
这项技术真的是邪恶的吗?还是它的使用方式实际上使其变得邪恶?我不知道。我很想认为这并不是公然的邪恶,但当这项技术的主要用途实际上是邪恶的时候,很难有这种信念。
欢迎来到令人兴奋的技术世界。如果你拿错了,每件工具都是武器,而握把似乎是专门为了拿错而设计的。我也实在不知道。
70年代末,电影《Soylent Green》上映。这部电影讲述了一个世界人口过剩的未来,人们可以获得的唯一食物是一种名为 Soylent Green 的食品。 Soylent Green 是一种救星,可以让人类恢复并养活自己。
然后人们慢慢开始消失。一开始这并没有引起太多注意,因为人太多了,但随着主角开始调查,它开始变得更加引人注目。电影的最后一幕以主角尖叫“Soylent Green是人!”结束。当他被警察拖走时。
没有人相信他。
Soylent Green 使用的技术是邪恶的,还是使用该技术的公司是邪恶的?
这整个冲突就是为什么我写故事的规则被称为“Soylent Green is people”。最好的科幻小说来自于当你处理冲突并使用技术本身来加速和强调冲突,以至于观众明显意识到冲突才是问题所在,而不是技术。
《星际迷航》因此而闻名。博格是人们冷漠地融入苏联机器的隐喻,自治领是美国和昭昭命运的隐喻,联邦是联合国不负责任的开明中心主义的隐喻。
技术本身只是一个工具。问题始终是使用技术的人。
现在,使用技术开发大型语言模型来取代人类劳动(但从根本上依赖人类劳动来构建进入所述模型的数据)是邪恶的吗?
我不知道。话又说回来,系统的目的就是它的作用。
结论
我正在处理很多微妙的事情,尽管我很想说我有答案,但我只是没有。我不知道这里最好的选择是什么,否则我就是个傻瓜。我已经使用这项技术有一段时间了,并且一直在精确地继续,以便我可以尝试找出接近答案的东西。
这项技术真的那么邪恶吗?我不这么认为。我不认为大型语言模型的基础技术及其训练是邪恶的。我绝对认为它们被夸大了,并不像您想象的或人们声称的那样普遍适用。如果这件事一定存在的话,最好公开地进行,这样我们就可以确定它反映了发生的现实,而不是私下进行,导致人们无法提出问题关于 LGBTQ+ 权利的问题准确回答。让我犹豫的主要事情之一是滥用的可能性。
也许我们需要有某种方法来限制对预先收集的数据集的访问,以便它仍然开放,但不是开放季节。我知道互联网档案馆有办法将事情保密一段时间,我怀疑这可能是前进的道路。
我对这个主题以及与之相关的事情有很多想法,超出了任何个人博客文章的范围。我将分批写下我的想法,以便我可以一点一点地完成这个工作。我计划写一篇关于艺术与内容的感叹,我对 Apple Intelligence 的看法,与 Character.ai 的一场诉讼,人工智能实际上有用的一些事情,最后是我对人们使用人工智能在我们身后卷起梯子的担忧软件人员,使人们很难或不可能进入该行业。
豆绿是人。
谢谢你对我的包容。