LTX-Video 13B发布!30倍速生成高清视频,开源AI让创作无界限!
人工智能视频生成技术再迎重大突破!Lightricks旗下LTX Studio近日发布了其最新开源视频生成模型LTX-Video13B,凭借130亿参数、30倍于同类模型的生成速度以及创新的多尺度渲染技术,迅速成为行业焦点。该模型不仅在消费级GPU上实现高效运行,还显著提升了视频的连贯性与细节表现,为创作者提供了前所未有的控制力与灵活性。
技术突破:多尺度渲染重塑视频生成
LTX-Video13B采用独特的多尺度渲染技术,通过先以低分辨率生成视频的粗略运动和场景布局,再逐步细化细节的创新方法,显著提升了生成速度与画质。该技术使模型在保持高质量输出的同时,生成速度比同类模型快30倍,渲染5秒视频仅需2秒,且能在如NVIDIA RTX4090的消费级GPU上流畅运行。相比传统模型,其内存需求更低,为创作者提供了更高效的创作体验。
模型基于DiT(Diffusion Transformer)架构,结合先进的内核优化和bfloat16数据格式,进一步提升了性能。LTX-Video13B支持1216×704分辨率、30帧/秒的实时生成,适用于文本到视频、图像到视频以及视频到视频等多种生成模式,满足多样化的创作需求。
强大功能:精准控制与无限创意
LTX-Video13B在动作连贯性、场景结构和镜头关系理解方面表现出色,能够生成逻辑性强、细节丰富的视频内容。模型支持关键帧控制、角色与镜头运动以及多镜头组合,为用户提供细粒度的创作控制。例如,创作者可以通过文本提示或参考图像精确调整视频中的角色动作、场景切换或镜头角度,实现电影般的视觉效果。
此外,LTX-Video13B支持视频延展和风格/动作替换功能,用户可将现有视频延长至最长60秒,或对视频进行风格化处理,如将现实场景转换为动画风格。这种灵活性使其在短片制作、广告创意和社交媒体内容创作中具有广泛应用潜力。
开源生态:赋能开发者与创作者
作为开源模型,LTX-Video13B在GitHub和Hugging Face上免费提供,允许开发者与创作者自由修改和定制。Lightricks还提供了LTX-Video-Trainer工具,支持2B和13B模型的完整微调以及LoRA(低秩适配)训练,方便用户开发定制化的控制模型,如深度、姿势或边缘检测等。模型兼容ComfyUI工作流,新增的Looping Sampler节点支持生成任意长度的视频,确保运动一致性。
为进一步降低使用门槛,Lightricks发布了一系列辅助工具,包括8位量化版本(ltxv-13b-fp8)和IC-LoRA Detailer,优化了在低内存设备上的运行性能。模型对初创企业和年收入低于1000万美元的组织免费开放,体现了Lightricks推动AI民主化的承诺。
视频生成的新里程碑
AIbase认为,LTX-Video13B的发布标志着开源视频生成技术迈向新高度。其多尺度渲染技术和对消费级硬件的优化,打破了传统AI视频生成对高性能设备的需求,为中小型团队和个人创作者提供了专业级的创作工具。结合开源社区的协作,LTX-Video13B有望推动视频生成技术的进一步创新,广泛应用于影视、游戏、广告和教育等领域。
目前,LTX-Video13B已集成至LTX Studio平台,用户可通过官方网站(https://ltx.studio)或GitHub(https://github.com/Lightricks/LTX-Video)获取模型及文档。Lightricks还计划持续优化模型,支持更多控制类型和多模态功能,为创作者提供更强大的工具。
未来展望:开启AI视频创作新篇章
Lightricks表示,LTX-Video13B的开发得益于与Getty Images等合作伙伴提供的高质量数据集,确保了输出内容的商业安全性和视觉吸引力。未来,团队将进一步探索时间变化提示和多模态生成,以支持更复杂的创作需求。AIbase期待LTX-Video13B在开源社区的推动下,成为AI视频生成领域的标杆。
试用:https://ift.tt/Acvkx0O
模型下载:https://ift.tt/iJtHoB7
空空如也!