研究称 OpenAI 可能未经授权使用 O'Reilly 付费书籍训练 AI 模型

近日,一项新研究引发关注,指控 OpenAI 在训练其最新的 AI 模型时,使用了 O'Reilly 媒体的付费书籍,但并未获得许可。这项研究由一家名为 AI Disclosures Project 的非营利组织发布,该组织是由媒体大亨 Tim O'Reilly 和经济学家 Ilan Strauss 于2024年共同创办的。

研究称 OpenAI 可能未经授权使用 O'Reilly 付费书籍训练 AI 模型插图

AI 模型可以被视为复杂的预测引擎,它们通过大量的数据(包括书籍、电影、电视节目等)学习模式,从而对简单的提示进行推测。当模型写作时,例如创作关于希腊悲剧的文章,或者绘制风格化的图像,其实是从庞大的知识库中提取信息,而并非创造出全新的内容。

随着越来越多的 AI 实验室,包括 OpenAI,开始使用 AI 生成的数据来训练模型,以应对现实世界数据(主要是公共网络资源)日益枯竭的挑战,训练模型的方式也在发生变化。尽管如此,完全依赖合成数据的风险使得很多机构仍然选择使用真实数据进行训练。

这项研究的论文指出,OpenAI 的 GPT-4o 模型很可能是基于 O'Reilly 的付费书籍进行训练的,而 O'Reilly 并未与 OpenAI 达成许可协议。研究表明,与早期的 GPT-3.5Turbo 模型相比,GPT-4o 对于 O'Reilly 付费书籍内容的识别能力显著增强。

研究者使用了一种名为 DE-COP 的方法,该方法用于检测语言模型训练数据中的版权内容。研究中,作者对 GPT-4o、GPT-3.5Turbo 及其他 OpenAI 模型的知识进行了分析,使用了来自34本 O'Reilly 书籍的13962个段落摘录,以估计这些摘录在模型训练数据中的概率。

研究结果显示,GPT-4o 对更多的付费 O'Reilly 书籍内容表现出了较高的识别度,这在一定程度上表明该模型可能在训练过程中接触到了这些非公开的书籍内容。

尽管如此,研究者也指出这并不是决定性的证据,OpenAI 或许是通过用户复制粘贴的方式获取了这些内容。此外,研究未对 OpenAI 最新模型进行评估,因此不排除这些模型没有使用 O'Reilly 的付费书籍进行训练的可能性。

尽管 OpenAI 在部分训练数据上是付费获取的,并且与新闻出版商、社交网络等达成了协议,但在当前法律环境下,其使用训练数据的做法仍受到多方质疑。这项研究无疑让 OpenAI 在众多关于训练数据使用的诉讼中,面临更加严峻的挑战。

划重点:

📚 OpenAI 被指控未经授权使用 O'Reilly 的付费书籍进行 AI 模型训练。  

🔍 研究显示,GPT-4o 对 O'Reilly 书籍的识别能力显著高于早期模型。  

⚖️ OpenAI 在使用训练数据方面正面临多重法律挑战。  

消息盒子
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息