优何软件 首页 软件资讯 其他 查看内容

腾讯开源全新动作迁移模型FlexiAct,人物 & 动物都支持

2025-5-7 21:11| 来自: 优何整理| 发布者: 门户小编

好消息! 好消息~ 欢迎科研团队供稿

免费分享学术 项目成果

动作定制旨在生成视频,使其中的主体能够按照输入的控制信号执行指定动作。当前的方法主要依赖于姿态引导或整体运动定制,但由于在空间结构方面(如布局、骨架和视角一致性)存在严格限制,这些方法在应对多样化主体和场景时的适应性较差。

为了解决这一问题,清华携手腾讯提出了FlexiAct,给定一张目标图像,FlexiAct 能将参考视频中的动作迁移至目标主体,即使在空间结构差异较大或跨域的异构场景中,也能实现精准的动作适配与外观一致性。与现有方法不同,FlexiAct 允许参考视频中的主体与目标图像之间在布局、视角和骨架结构上存在差异,同时保持身份一致性。(链接在文章底部)

01 技术原理

实现这一目标需要对动作进行精确控制、适应空间结构变化,并保持外观一致性。为此,引入了RefAdapter,这是一种轻量级、以图像为条件的适配器,擅长于空间结构的适配和一致性保持,在外观一致性与结构灵活性之间达到了优于现有方法的平衡。


FlexiAct 方法概览:(1)上半部分展示了 RefAdapter 的训练过程,该模块以任意图像帧为条件,使动作能够在不同空间结构之间顺利迁移;(2)下半部分展示了 FAE 的训练与推理流程,其中视频 token 对频率感知嵌入的注意力权重会根据去噪时间步动态调整,从而实现动作的有效提取。

此外,去噪过程中对运动(低频)和外观细节(高频)的关注程度在不同时间步呈现出差异性。因此,提出了FAE(Frequency-aware Action Extraction,频率感知动作提取),与依赖独立时空架构的现有方法不同,FAE 直接在去噪过程中完成动作提取。

02 对比与演示

对比方法:现有的动作迁移方法包括基于预定义信号和全局运动的方法,后者在处理非人类实体或骨架差异较大的主体时效果更好。使用MotionDirector 作为基准,重新实现并在更强大的 CogVideoX-I2V主干网络上训练,确保公平比较。此外,还实现了一个基础模型(BaseModel),直接通过标准可学习嵌入学习动作,不使用RefAdapter 和 FAE。

在不同空间结构的目标图像上进行动作迁移时,红框高亮显示了外观偏差区域。与其他方法相比,FlexiAct 在保持目标图像外观一致性和动作真实性方面表现优异。

人物动作迁移:

动物动作迁移:

https://github.com/shiyi-zh0408/FlexiAct
https://arxiv.org/pdf/2505.03730

欢迎交流~,带你学习AI,了解AI


路过

雷人

握手

鲜花

鸡蛋

最新评论