松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

2025年6月4日 242

采集

松下控股公司（Panasonic HD）联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员，成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力，可以实现文本、图像和音频之间的自由转换，极大地提升了多模态生成 AI 的应用潜力。

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换插图

近年来，多模态生成 AI 的研究越来越受到关注，尤其是结合音频的生成技术。然而，传统方法在数据获取上存在局限，尤其是在同时处理文本、图像和音频数据时，所需的训练数据量和成本大幅增加。针对这一难题，OmniFlow 通过灵活结合针对不同数据格式的生成 AI（如文本与音频、文本与图像），即使在小样本情况下，也能学习到高精度的 “任意对任意” 模型，从而显著降低了数据采集的成本。

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换插图1

OmniFlow 的技术创新已获得国际认可，并将在2025年计算机视觉与模式识别会议（CVPR）上进行展示。该技术的核心在于，它能够通过连接和处理三种不同数据特征，学习更为复杂的数据关系，而不是简单地对输入数据进行平均处理。这种方法让 OmniFlow 在生成过程中不仅保留了各模态的特点，也提升了表达能力。

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换插图2

在评估实验中，OmniFlow 在 “文本转图像” 和 “文本转音频” 的生成任务中，表现优于其他传统方法，展现出最佳的性能。实验结果显示，与其他 “任意对任意” 生成方法相比，OmniFlow 所需的训练数据量可减少至1/60，这一显著的优势让其在多模态 AI 领域脱颖而出。

展望未来，OmniFlow 有望在工厂、生活方式等多个领域进行应用，能够生成各种专门针对特定场景的数据。松下控股将继续推动 AI 的社会化应用，致力于开发能为客户生活与工作带来便利的 AI 技术。

Comments | NOTHING

空空如也！

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

OpenAI 澄清与谷歌芯片传闻：并无大规模合作计划

Atypica.AI：全新高效用户洞察代理工具

谷歌利用 AI 技术去年封停 3920 万广告账号，效果显著

LiblibAI接入阿里通义大模型推出10秒AI视频生成功能

微软开源Azure DevOps 本地 MCP 服务器：在VS Code中无缝管理DevOps任务

掘金AI基建!Lambda与微软达成数十亿美元GPU部署协议

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

​OpenAI 澄清与谷歌芯片传闻：并无大规模合作计划

Atypica.AI：全新高效用户洞察代理工具

谷歌利用 AI 技术去年封停 3920 万广告账号，效果显著

LiblibAI接入阿里通义大模型 推出10秒AI视频生成功能

微软开源Azure DevOps 本地 MCP 服务器：在VS Code中无缝管理DevOps任务

掘金AI基建!Lambda与微软达成数十亿美元GPU部署协议

OpenAI 澄清与谷歌芯片传闻：并无大规模合作计划

LiblibAI接入阿里通义大模型推出10秒AI视频生成功能