松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换
松下控股公司(Panasonic HD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成 AI 的应用潜力。
近年来,多模态生成 AI 的研究越来越受到关注,尤其是结合音频的生成技术。然而,传统方法在数据获取上存在局限,尤其是在同时处理文本、图像和音频数据时,所需的训练数据量和成本大幅增加。针对这一难题,OmniFlow 通过灵活结合针对不同数据格式的生成 AI(如文本与音频、文本与图像),即使在小样本情况下,也能学习到高精度的 “任意对任意” 模型,从而显著降低了数据采集的成本。
OmniFlow 的技术创新已获得国际认可,并将在2025年计算机视觉与模式识别会议(CVPR)上进行展示。该技术的核心在于,它能够通过连接和处理三种不同数据特征,学习更为复杂的数据关系,而不是简单地对输入数据进行平均处理。这种方法让 OmniFlow 在生成过程中不仅保留了各模态的特点,也提升了表达能力。
在评估实验中,OmniFlow 在 “文本转图像” 和 “文本转音频” 的生成任务中,表现优于其他传统方法,展现出最佳的性能。实验结果显示,与其他 “任意对任意” 生成方法相比,OmniFlow 所需的训练数据量可减少至1/60,这一显著的优势让其在多模态 AI 领域脱颖而出。
展望未来,OmniFlow 有望在工厂、生活方式等多个领域进行应用,能够生成各种专门针对特定场景的数据。松下控股将继续推动 AI 的社会化应用,致力于开发能为客户生活与工作带来便利的 AI 技术。
空空如也!