专家揭示数百项 AI 安全测试存在严重缺陷

2025年11月4日 32

采集

根据最新报道，来自英国政府 AI 安全研究所和多所知名大学的计算机科学家们发现，当前用于评估新一代人工智能（AI）模型安全性和有效性的测试存在广泛的缺陷。这项研究分析了超过440个基准测试，发现几乎所有的测试在某个方面都有弱点，这些弱点可能会影响到最终结论的有效性。

专家揭示数百项 AI 安全测试存在严重缺陷插图

图源备注:图片由AI生成

研究的主要作者、牛津互联网研究所的研究员安德鲁・比恩（Andrew Bean）表示，这些基准测试是检查新发布 AI 模型安全性和是否符合人类利益的重要工具。然而，由于缺乏统一的标准和可靠的测量方法，很难判断这些模型是否真正取得了进展，或者只是表面上看起来在进步。

在目前英国和美国尚未出台全国性 AI 监管法规的背景下，基准测试成了技术公司推出新 AI 时的安全网。近期，一些公司因其 AI 模型造成的危害而不得不收回或收紧其产品。例如，谷歌最近撤回了一款名为 Gemma 的 AI，因为该模型虚构了关于一位美国参议员的不实指控，这引发了广泛的争议。

谷歌表示，Gemma 模型是为 AI 开发者和研究人员设计的，而不是供普通消费者使用，并在得知非开发者尝试使用后将其撤回。研究还发现，许多基准测试并未使用不确定性估计或统计测试，仅有16% 的测试具备这样的措施。此外，在评估 AI 的 “无害性” 等特征时，相关定义往往存在争议或模糊，进一步降低了基准测试的实用性。

该研究呼吁建立共享标准和最佳实践，以提升 AI 安全性和有效性的评估能力。

划重点:

🔍 近440个 AI 安全测试发现几乎所有都有缺陷，影响结论有效性。

🚫 谷歌因 Gemma 模型引发虚假指控事件，撤回该 AI。

📊 仅16% 的测试使用统计方法，亟需建立共享标准与最佳实践。

Comments | NOTHING

空空如也！

专家揭示数百项 AI 安全测试存在严重缺陷

英伟达拟向OpenAI投资1000亿美元，建设AI数据中心

AI演示新纪元：Gamma 3.0重磅发布，用Agent和API颠覆创作流程

麻省理工学院推出可调节的生成 AI 工具，助力机器人虚拟训练

视觉语言AI新突破！伯克利发布TULIP模型，性能大幅超越现有技术

隐私智能体通付盾“快乐猪”：多智能体协同，隐私保护不再难！

GPT-4o图像生成功能现已集成至自定义GPTs

专家揭示数百项 AI 安全测试存在严重缺陷

​英伟达拟向OpenAI投资1000亿美元，建设AI数据中心

AI演示新纪元：Gamma 3.0重磅发布，用Agent和API颠覆创作流程

麻省理工学院推出可调节的生成 AI 工具，助力机器人虚拟训练

视觉语言AI新突破！伯克利发布TULIP模型，性能大幅超越现有技术

隐私智能体通付盾“快乐猪”：多智能体协同，隐私保护不再难！

GPT-4o图像生成功能现已集成至自定义GPTs

英伟达拟向OpenAI投资1000亿美元，建设AI数据中心