BlueSky 提出了为人工智能训练抓取数据的“新标准”

社交_64.png

一位匿名读者分享了 TechCrunch 上的这篇文章：社交网络 Bluesky 最近在 GitHub 上发布了一项提案，概述了新的选项，它可以让用户表明他们是否希望自己的帖子和数据被抓取用于生成 AI 训练和公共存档等事情。首席执行官 Jay Graber 本周早些时候在西南偏南音乐节的舞台上讨论了该提案，但在周五晚上她在 Bluesky 上发布了该提案后，该提案引起了新的关注。一些用户对该公司的计划感到震惊，他们认为这与 Bluesky 之前的坚持相反，即不会向广告商出售用户数据，也不会在用户帖子上训练人工智能……Graber 回答说，生成式人工智能公司“已经从整个网络上抓取公共数据”，包括来自 Bluesky 的公共数据，因为“Bluesky 上的所有内容都是公开的，就像网站是公开的一样。”因此，她表示 Bluesky 正在尝试创建一个“新标准”来管理这种抓取，类似于网站用来向网络爬虫传达权限的 robots.txt 文件……如果用户表示他们不希望自己的数据用于训练生成式人工智能，该提案称，“构建人工智能训练集的公司和研究团队在看到这一意图时，无论是在抓取网站时，还是在使用协议本身进行批量传输时，都应该尊重这一意图。”在 Threads 上，有人对人工智能驱动的未来抱有不同的愿望。 “我希望能够与我的提要算法进行对话式聊天。能够向它解释我想看到的内容类型以及我不想看到的内容。我希望这是一个持续的对话，因为它可以完善它向我展示的内容，或者我的兴趣发生变化。” Instagram/Threads 高管 Adam Mosseri 表示：“是的，我也想要这个。”他表示，他已经与 VC Sam Lessin 讨论了这个想法。 “在我们大规模实现这一目标之前，还有很长的路要走，但我认为这最终会发生。”

在 Slashdot 上阅读这个故事的更多内容。

原文： https://tech.slashdot.org/story/25/03/17/0434237/bluesky-proposes-new-standard-for-when-scraping-data-for-ai-training?utm_source=rss1.0mainlinkanon&utm_medium=feed