​维基媒体基金会对 AI 爬虫的带宽负担发出警告

近年来,随着人工智能技术的飞速发展,网络爬虫对维基媒体项目造成的带宽压力日益严重。维基媒体基金会的代表指出,自2024年1月以来,用于服务多媒体文件的带宽消耗增加了50%。这一增长主要来源于自动化程序,这些程序不断从维基媒体的开放许可图像库中抓取内容,以供 AI 模型进行训练。

​维基媒体基金会对 AI 爬虫的带宽负担发出警告插图

维基媒体基金会的工作人员 Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto 在公开信中表示,这一带宽增加并非源于人类用户,而是由于机器人程序的强大需求。他们强调:“我们的基础设施旨在承受人类用户在高兴趣事件期间的突发流量,但爬虫产生的流量却是前所未有的,给我们带来了越来越大的风险和成本。”

根据维基媒体的统计,约65% 的高成本内容流量是由这些爬虫生成的,尽管爬虫只占页面浏览量的35%。这是因为维基媒体的缓存方案将热门内容分发到全球各地的数据中心以提高性能,而爬虫在访问页面时并不考虑内容的受欢迎程度,因此会请求不那么受欢迎的内容,这使得内容必须从核心数据中心获取,消耗了更多的计算资源。

在过去的一年中,关于网络爬虫的过度抓取问题已经引起了多个开源项目的关注。例如,Git 托管服务 Sourcehut、Diaspora 开发者 Dennis Schubert、修理网站 iFixit 和 ReadTheDocs 等均对此表示不满。他们都反映了 AI 爬虫在内容抓取中表现出的过度需求。

维基媒体基金会在其2025/2026年的年度规划中提出了 “减少爬虫生成的流量” 的目标,计划减少20% 的请求率和30% 的带宽使用。他们希望能够优先考虑人类用户的使用体验,并支持维基媒体项目和贡献者。

虽然许多网站认识到为爬虫提供带宽是商业的一部分,但随着像 ChatGPT 这样的生成 AI 的普及,爬虫的抓取行为变得愈发激进,甚至可能对源网站的存在构成威胁。维基媒体基金会承认,虽然 Wikipedia 和 Wikimedia Commons 对机器学习模型的训练非常重要,但他们必须优先考虑人类用户的需求。

为应对这一挑战,已经出现了一些工具来对抗爬虫的过度抓取行为,例如数据中毒项目 Glaze、Nightshade 和 ArtShield,以及网络工具 Kudurru、Nepenthes 等。然而,现有的机器人协议(robots.txt)并不能完全有效地限制这些爬虫的行为,尤其是它们可能会伪装成其他爬虫以规避封锁。

划重点:

🌐 爬虫对维基媒体带宽的消耗增加50%,主要来自于 AI 模型的内容抓取。

🤖 约65% 的高成本内容流量由爬虫生成,虽然爬虫只占页面浏览量的35%。

📉 维基媒体基金会计划在2025/2026年减少爬虫生成的流量,优先考虑人类用户的需求。

消息盒子
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息