开源开发者称人工智能爬虫主导了流量，迫使整个国家被封锁

一位匿名读者引用了 Ars Technica 的一份报告：今年早些时候，软件开发人员 Xe Iaso 达到了临界点，来自亚马逊的人工智能爬虫流量淹没了他们的 Git 存储库服务，反复导致不稳定和停机。尽管配置了标准的防御措施——调整 robots.txt、阻止已知的爬虫用户代理和过滤可疑流量——Iaso 发现人工智能爬虫继续逃避所有阻止它们的尝试，欺骗用户代理并循环使用住宅 IP 地址作为代理。由于迫切需要解决方案，Iaso 最终将他们的服务器移到 VPN 后面并创建了“Anubis”，这是一个定制的工作证明挑战系统，迫使网络浏览器在访问网站之前解决计算难题。 Iaso 在一篇题为“绝望的求助呼声”的博客文章中写道：“阻止人工智能爬虫机器人是徒劳的，因为它们会撒谎、更改用户代理、使用住宅 IP 地址作为代理等等。” “我不想向公众关闭我的 Gitea 服务器，但如果有必要的话我会这样做。” Iaso 的故事凸显了一场更广泛的危机正在整个开源社区迅速蔓延，因为看似激进的人工智能爬虫越来越多地使社区维护的基础设施超载，从而导致对重要公共资源的持续分布式拒绝服务 (DDoS) 攻击。根据 LibreNews 最近的一份综合报告，一些开源项目现在高达 97% 的流量来自人工智能公司的机器人，这大大增加了带宽成本、服务不稳定，并给本已捉襟见肘的维护人员带来了负担。 Fedora Pagure 项目系统管理团队的成员 Kevin Fenzi 在他的博客上报告称，在多次尝试缓解机器人流量失败后，该项目不得不阻止来自巴西的所有流量。 GNOME GitLab 实现了 Iaso 的“Anubis”系统，要求浏览器在访问内容之前解决计算难题。 GNOME 系统管理员 Bart Piotrowski 在 Mastodon 上表示，只有约 3.2% 的请求（84,056 个请求中的 2,690 个）通过了他们的挑战系统，这表明绝大多数流量都是自动化的。据 LibreNews 援引 KDE 开发聊天记录称，KDE 的 GitLab 基础设施因来自阿里巴巴 IP 范围的爬虫流量而暂时离线。虽然阿努比斯已被证明可以有效过滤机器人流量，但它对合法用户来说也有缺点。当许多人同时访问同一链接时（例如在聊天室中共享 GitLab 链接时），网站访问者可能会面临严重的延迟。据新闻媒体报道，一些移动用户报告称，工作量证明挑战需要等待长达两分钟才能完成。

在 Slashdot 上阅读这个故事的更多内容。

原文： https://tech.slashdot.org/story/25/03/26/016244/open-source-devs-say-ai-crawlers-dominate-traffic-forcing-blocks-on-entire-countries?utm_source=rss1.0mainlinkanon&utm_medium=feed