英伟达发布Llama3.1 Nemotron Ultra 253B,性能超越Llama 4 Behemoth

2025年4月8日,英伟达(NVIDIA)宣布推出其最新大型语言模型(LLM)——Llama3.1Nemotron Ultra253B。这一模型基于Meta的Llama-3.1-405B-Instruct开发,通过创新的神经架构搜索(NAS)技术进行了深度优化,不仅在性能上超过了近期发布的Llama4系列中的Behemoth和Maverick,还以开源形式在Hugging Face平台上发布,引发了AI社区的广泛关注。

英伟达发布Llama3.1 Nemotron Ultra 253B,性能超越Llama 4 Behemoth插图

性能突破:碾压Llama4Behemoth和Maverick

根据英伟达官方披露的信息以及社交媒体上的最新讨论,Llama3.1Nemotron Ultra253B在多个关键基准测试中表现出色。这一模型拥有2530亿个参数,相较于Llama4Behemoth高达2万亿的总参数量(2880亿活跃参数)以及Maverick的170亿活跃参数,Nemotron Ultra在效率和性能的平衡上实现了显著突破。

尽管具体基准数据尚未完全公开,但Nemotron Ultra据称在推理能力、指令遵循和通用任务处理上超越了Llama4系列的旗舰模型。这得益于英伟达通过NAS技术对模型架构的优化,显著降低了内存占用和推理延迟,同时保持了高精度。相比之下,Llama4Behemoth虽然参数量庞大,但在计算资源需求上更为苛刻,而Nemotron Ultra能够在单节点8x H100GPU上高效运行,展现了其在实用性上的优势。

开源发布:Hugging Face上的商业友好模型

Llama3.1Nemotron Ultra253B不仅性能强劲,其开源策略也备受赞誉。该模型已在Hugging Face平台上提供开放权重,遵循NVIDIA Open Model License和Llama3.1社区许可协议,支持商业使用。

据称,Nemotron Ultra253B不仅击败了Llama4Behemoth和Maverick,还与DeepSeek R1不相上下,且具备商业许可,这太火爆了!”这一举措被认为是英伟达推动AI民主化的重要一步,为开发者、企业和研究人员提供了高性能模型的便捷访问渠道。

此外,该模型支持高达128K的上下文长度,适用于高级推理、聊天交互、检索增强生成(RAG)和工具调用等多种任务。英伟达特别强调,开发者可通过系统提示切换“推理模式”(Reasoning On/Off),灵活应对不同应用场景的需求。

值得注意的是,Llama4Behemoth尚未完全发布(目前仍处于训练阶段),因此直接比较可能尚不全面。尽管如此,Nemotron Ultra凭借其开源性质和对单GPU集群的高效适配,已被视为当前AI领域的一匹黑马。

英伟达发布Llama3.1 Nemotron Ultra 253B,性能超越Llama 4 Behemoth插图1

英伟达的战略布局

业内人士分析,Llama3.1Nemotron Ultra253B的发布不仅是技术上的突破,也是英伟达在AI生态系统中的战略布局。通过优化现有开源模型并提升其性能,英伟达不仅展示了其在AI软件开发上的实力,也进一步巩固了其硬件(特别是H100GPU)在AI推理和训练中的核心地位。这一模型的效率优势意味着企业能够在更低的成本下部署高性能AI解决方案,无疑将推动英伟达硬件的市场需求。

Llama3.1Nemotron Ultra253B的亮相标志着英伟达在大型语言模型领域的又一次重大进展。其超越Llama4Behemoth和Maverick的性能表现,结合开源和商业友好的特性,使其成为2025年AI领域的一大亮点。

项目入口:https://ift.tt/0a2jsqr

消息盒子
# 您需要首次评论以获取消息 #
# 您需要首次评论以获取消息 #

只显示最新10条未读和已读信息