预训练不等于更强大,研究揭示大语言模型的 “灾难性过度训练” 现象

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会导致模型性能下降,出现一种被称为 “灾难性过度训练” 的现象。

在一项研究中,研究者们对 OLMo-1B 模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。出乎意料的是,虽然第二个模型接受了更多的数据训练,但其在一些基准测试(例如 AlpacaEval 和 ARC)的表现却下降了多达3%。这引发了人们对传统观点的质疑:多训练是否真的意味着更好?

预训练不等于更强大,研究揭示大语言模型的 “灾难性过度训练” 现象插图

图源备注:图片由AI生成,图片授权服务商Midjourney

研究者解释称,这种性能下降与 “渐进敏感性” 现象有关。随着模型接受的标记数量增加,模型对微小变化变得更加脆弱。比如,在微调过程中即使是一些小的调整或噪音的引入,都可能导致先前的训练效果被逆转。为了验证这一点,研究者们在模型中注入高斯噪声,结果显示,经过更长时间训练的模型性能下降得更加明显。

在研究中,作者提出了一个关键概念,即 “拐点”,即在这个点上,额外的训练开始导致性能的下降,而不是提升。对于较小的模型如 OLMo-1B 来说,这一拐点通常出现在超过2.5万亿个标记之后。研究者警告说,“灾难性过度训练” 可能是不可避免的,尤其是在预训练和微调任务不匹配的情况下。

虽然研究者并没有建议完全放弃预训练,但他们强调,开发者应该认真思考预训练的量要适度。研究的结论呼吁在模型扩展方面重新审视整个训练流程的设计。对于那些追求模型规模的 AI 开发者而言,这项研究传达的信息十分明确:有时候,少就是多。

消息盒子
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息