全面开源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模态模型登场

2025年10月17日 74

采集

近日，开源社区迎来了 LLaVA-OneVision-1.5，这是一款全新的多模态模型，标志着技术的一次重大进步。LLaVA（大型语言与视觉助手）系列历经两年开发，逐步从简单的图文对齐模型演变为能够处理图像、视频等多种输入形式的综合性框架。

LLaVA-OneVision-1.5的核心理念是提供一个开放、高效且可复现的训练框架，让用户能够轻松构建高质量的视觉语言模型。其训练过程分为三个阶段:首先，通过语言 - 图像对齐的预训练阶段，模型学习将视觉特征转化为语言词嵌入。

全面开源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模态模型登场插图

接着，在第二阶段 “高质量知识学习” 中，模型在8500万的训练样本上进行全参数训练，注入大量视觉和知识信息，显著提升模型能力。最后，在视觉指令微调阶段，使用精心设计的数据集进行训练，使模型具备处理多种复杂视觉指令的能力。

在效率方面，团队采用了一种创新的离线并行数据打包方法，显著提高了训练效率。在8500万样本的基础上，数据处理的压缩比高达11倍，训练过程仅需3.7天便可完成。同时，LLaVA-OneVision-1.5还采用了 RICE-ViT 作为视觉编码器，具备区域感知的视觉理解能力，特别适合处理文档中的文字。

全面开源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模态模型登场插图1

数据是模型能力的基础，LLaVA-OneVision-1.5的预训练数据集广泛多样，并引入了 “概念均衡” 的采样策略，确保模型在各类任务上的表现均衡。该模型在各项基准测试中表现出色，尤其是80亿参数的版本在27个基准中超越了 Qwen2.5-VL 的表现。

项目:

https://ift.tt/6CvFTrW

https://ift.tt/2tBQsy3

划重点:

🌟 LLaVA-OneVision-1.5是最新的开源多模态模型，具有处理图像和视频等多种输入的能力。

📈 训练过程分为三个阶段，旨在高效提升模型的视觉与语言理解能力。

🏆 在基准测试中，LLaVA-OneVision-1.5表现优异，超越了 Qwen2.5-VL 模型。

Comments | NOTHING

空空如也！

全面开源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模态模型登场

基础模型神话破灭？AI行业巨变来袭，"GPT包装工"们正在翻身

Dataiku 推出新功能，助力企业高效管理 AI 代理

OpenAI o3横扫夺冠！AI象棋大赛揭露通用模型真实棋力

全新一代人形机器人 Figure 03 正式发布，开启智能家居新时代

Google Gemini API迎来隐式缓存功能自动节省开发成本高达75%

昔日合作伙伴反目成仇，微软AI主管挖角谷歌20名核心员工引发行业震动

​全面开源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模态模型登场

基础模型神话破灭？AI行业巨变来袭，"GPT包装工"们正在翻身

Dataiku 推出新功能，助力企业高效管理 AI 代理

OpenAI o3横扫夺冠！AI象棋大赛揭露通用模型真实棋力

全新一代人形机器人 Figure 03 正式发布，开启智能家居新时代

Google Gemini API迎来隐式缓存功能 自动节省开发成本高达75%

​昔日合作伙伴反目成仇，微软AI主管挖角谷歌20名核心员工引发行业震动

全面开源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模态模型登场

Google Gemini API迎来隐式缓存功能自动节省开发成本高达75%

昔日合作伙伴反目成仇，微软AI主管挖角谷歌20名核心员工引发行业震动