据维基媒体基金会称,为人工智能模型收集训练数据的网络爬虫正在压垮维基百科的基础设施,自 2024 年初以来,机器人流量呈指数级增长。根据 4 月 1 日发布的数据,自 1 月份以来,多媒体内容的带宽激增了 50%,这主要是由于自动化程序抓取了维基共享资源的 1.44 亿个公开许可的媒体文件。这种前所未有的流量给非营利组织带来了运营挑战。 2024 年 12 月吉米·卡特去世时,他的维基百科页面一天的浏览量达到 280 万次,而他 1980 年总统辩论的 1.5 小时视频导致网络流量翻倍,导致部分用户页面加载缓慢。分析显示,该基金会资源最密集的流量中有 65% 来自机器人,尽管机器人仅占总浏览量的 35%。该基金会的站点可靠性团队现在定期阻止大量爬虫流量以防止服务中断。该基金会表示:“我们的内容是免费的,但我们的基础设施不是。”并宣布计划为自动化内容消费建立可持续的边界。
在 Slashdot 上阅读这个故事的更多内容。