维基百科发布 AI 训练数据集，旨在阻止爬虫抓取

2025年4月18日 244

维基百科近日宣布，将通过与谷歌旗下的数据科学社区平台 Kaggle 的合作，发布一份专门优化用于人工智能模型训练的数据集。这一举措旨在减少 AI 开发者通过爬虫程序抓取维基百科数据的行为，保护平台的带宽和服务器资源。

维基百科发布 AI 训练数据集，旨在阻止爬虫抓取插图

该数据集的内容包括英语和法语的结构化维基百科信息，具有良好的机器可读性，便于 AI 开发者进行建模、微调和数据分析。维基媒体基金会表示，这份数据集以开放许可的方式发布，内容涵盖了研究摘要、简短描述、图像链接、信息框数据以及文章的各个部分，但不包括参考文献和音频文件等非文本元素。

维基媒体希望，Kaggle 用户能够通过这份数据集，获得更为便利的获取信息的方式，从而避免直接抓取原始文章文本所带来的技术挑战。随着越来越多的自动化 AI 程序对维基百科的访问，爬虫抓取行为正在给维基百科的服务器带来沉重负担。

Kaggle 的合作伙伴关系负责人布伦达・弗林表示，Kaggle 非常高兴能够成为维基媒体基金会数据的承载平台。她指出，Kaggle 致力于保持数据的可访问性、可用性和实用性，以服务更广泛的机器学习社区。

通过此次合作，维基百科不仅保护了自身资源，也为小型企业和独立数据科学家提供了更为便利的访问途径，推动了人工智能的发展和应用。

划重点:

🌐 维基百科与 Kaggle 合作，发布英语和法语的结构化数据集，旨在减少 AI 爬虫抓取行为。

🗂️ 数据集包括研究摘要、简短描述和图像链接等，开放许可，便于 AI 开发者使用。

🔧 Kaggle 承诺维护数据的可访问性，支持小企业和独立数据科学家的研究。

Comments | NOTHING

空空如也！

​维基百科发布 AI 训练数据集，旨在阻止爬虫抓取