SourceHut 是一个开源友好的 git 托管服务,它表示人工智能公司的网络爬虫由于对数据的过度需求而减慢了服务速度。来自一份报告:“SourceHut 继续面临由于激进的 LLM 爬虫而造成的中断,”该公司周一在其状态页面上报道。 “我们正在不断努力部署缓解措施。我们已经部署了许多缓解措施,目前可以控制问题。但是,我们的一些缓解措施可能会影响最终用户。” SourceHut 表示,它已经部署了 Nepenthes,这是一个焦油坑,用于捕获网络爬虫,这些爬虫主要为了训练大型语言模型而抓取数据,并指出这样做可能会降低用户对某些网页的访问。该公司表示:“我们单方面屏蔽了多家云提供商,包括 GCP [谷歌云] 和 [微软] Azure,因为它们的网络产生大量机器人流量。”该公司建议与 SourceHut 集成的服务管理员联系以安排屏蔽例外情况。
在 Slashdot 上阅读这个故事的更多内容。