优何软件 首页 软件资讯 其他 查看内容

字节跳动开源全新AI模型LatentSync 精准控制唇形同步

2025-1-16 17:11| 来自: 优何整理| 发布者: 门户小编

品玩1月6日讯,据 AI Base 报道,字节跳动近日开源了一项名为 LatentSync 的创新技术,该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。

这项技术无需任何中间运动表示,即可实现视频中人物唇部动作与音频的精准同步。与以往基于像素空间扩散或两阶段生成的唇同步方法不同,LatentSync 直接利用了 Stable Diffusion 的强大功能,能更有效地建模复杂的视听关联。

研究发现,基于扩散的唇同步方法在时间一致性方面表现不佳,因为不同帧之间的扩散过程存在不一致性。为了解决这个问题,LatentSync 引入了时间表示对齐 (TREPA) 技术。TREPA 利用大型自监督视频模型提取的时间表示,使生成的帧与真实帧对齐,从而增强时间一致性,同时保持唇同步的准确性。



路过

雷人

握手

鲜花

鸡蛋

最新评论