2026-01-14 16:08:09

美团开源LongCat-Video-Avatar:首个多模态虚拟人视频生成模型

摘要
12月18日,美团LongCat团队宣布正式推出并开源其最新的虚拟人视频生成模型LongCat-Video-Avatar。该模型基于LongCat-Video基座构建,延续

12月18日,美团LongCat团队宣布正式推出并开源其最新的虚拟人视频生成模型LongCat-Video-Avatar。该模型基于LongCat-Video基座构建,延续了“单模型多任务”的设计理念,原生支持从音频、文本到视频的生成,兼容图文输入驱动视频生成,并具备视频续写能力。在架构层面,新模型实现了全面优化,在动作自然度、长时生成稳定性以及人物身份一致性方面取得显著突破。

该模型在表现力上展现出高度拟人化特征,不仅实现口型与语音的精准同步,还能协同控制眼神、面部表情及肢体动作,呈现细腻的情感表达。即使在无语音输入的静默阶段,模型亦能模拟人类自然行为,如眨眼、微调坐姿或放松肩部动作,避免出现呆滞状态。这一效果得益于团队采用的Disentangled Unconditional Guidance(解耦无条件引导)训练策略,使模型理解静音不等于动作终止,从而提升整体生动性。

LongCat-Video-Avatar由此成为首个同时支持纯文本、图像和视频三种输入模式的综合性虚拟人生成模型,进一步推动虚拟形象向真实化、生命感方向发展。在HDTF、CelebV-HQ、EMTD和EvalTalker等多个公开权威数据集上的测试结果显示,该模型在多项关键指标上达到当前最优水平。

项目已开放源代码及相关资源,可通过指定平台获取。

科技趋势
时事资讯
回顶部