一位匿名读者引用了 TechCrunch 的一篇报道:周六,Triplegangers 首席执行官 Oleksandr Tomchuk 接到警报,称其公司的电子商务网站已关闭。这看起来像是某种分布式拒绝服务攻击。他很快发现罪魁祸首是 OpenAI 的一个机器人,它不断地试图抓取他的整个庞大网站。 “我们有超过 65,000 种产品,每种产品都有一个页面,”Tomchuk 告诉 TechCrunch。 “每页至少有三张照片。” OpenAI 发送了“数万个”服务器请求,试图下载所有内容,数十万张照片及其详细描述。 “OpenAI 使用 600 个 IP 来抓取数据,我们仍在分析上周的日志,也许数量更多,”他在谈到该机器人用于尝试使用其网站的 IP 地址时说道。 “他们的爬虫正在摧毁我们的网站,”他说,“这基本上是一次 DDoS 攻击。” Triplegangers 的网站就是它的业务。这家拥有七名员工的公司花了十多年的时间组建了所谓的网络上最大的“人体数字替身”数据库,即从真实人体模型扫描的 3D 图像文件。它向 3D 艺术家、视频游戏制作者以及任何需要以数字方式重建真实人类特征的人出售 3D 对象文件以及照片(从手到头发、皮肤和全身的所有内容)。 […] 雪上加霜的是,不仅 Triplegangers 在美国工作时间被 OpenAI 的机器人离线,而且 Tomchuk 预计由于所有 CPU 和机器人的下载活动,AWS 账单也会增加。 Triplegangers 最初缺乏正确配置的 robots.txt 文件,该文件允许机器人自由抓取其网站,因为系统将缺少此类文件解释为权限。这不是一个选择加入系统。一旦使用特定标签更新文件以阻止 OpenAI 的机器人,以及 Cloudflare 等其他防御措施,抓取就会停止。然而,robots.txt 并非万无一失,因为人工智能公司的合规是自愿的,这让网站所有者有责任主动监控和阻止未经授权的访问。 TechCrunch 报道称,“[Tomchuk] 希望其他小型在线企业知道,发现人工智能机器人是否正在获取网站受版权保护的内容的唯一方法就是积极查看。”
在 Slashdot 上阅读这个故事的更多内容。