腾讯开源全新动作迁移模型FlexiAct，人物 & 动物都支持

2025-5-7 21:11| 来自: 优何整理| 发布者: 门户小编

好消息！好消息～欢迎科研团队供稿

免费分享学术项目成果

动作定制旨在生成视频，使其中的主体能够按照输入的控制信号执行指定动作。当前的方法主要依赖于姿态引导或整体运动定制，但由于在空间结构方面（如布局、骨架和视角一致性）存在严格限制，这些方法在应对多样化主体和场景时的适应性较差。

为了解决这一问题，清华携手腾讯提出了FlexiAct，给定一张目标图像，FlexiAct 能将参考视频中的动作迁移至目标主体，即使在空间结构差异较大或跨域的异构场景中，也能实现精准的动作适配与外观一致性。与现有方法不同，FlexiAct 允许参考视频中的主体与目标图像之间在布局、视角和骨架结构上存在差异，同时保持身份一致性。（链接在文章底部）

01 技术原理

实现这一目标需要对动作进行精确控制、适应空间结构变化，并保持外观一致性。为此，引入了RefAdapter，这是一种轻量级、以图像为条件的适配器，擅长于空间结构的适配和一致性保持，在外观一致性与结构灵活性之间达到了优于现有方法的平衡。

FlexiAct 方法概览：（1）上半部分展示了 RefAdapter 的训练过程，该模块以任意图像帧为条件，使动作能够在不同空间结构之间顺利迁移；（2）下半部分展示了 FAE 的训练与推理流程，其中视频 token 对频率感知嵌入的注意力权重会根据去噪时间步动态调整，从而实现动作的有效提取。

此外，去噪过程中对运动（低频）和外观细节（高频）的关注程度在不同时间步呈现出差异性。因此，提出了FAE（Frequency-aware Action Extraction，频率感知动作提取），与依赖独立时空架构的现有方法不同，FAE 直接在去噪过程中完成动作提取。

02 对比与演示

对比方法：现有的动作迁移方法包括基于预定义信号和全局运动的方法，后者在处理非人类实体或骨架差异较大的主体时效果更好。使用MotionDirector 作为基准，重新实现并在更强大的 CogVideoX-I2V主干网络上训练，确保公平比较。此外，还实现了一个基础模型（BaseModel），直接通过标准可学习嵌入学习动作，不使用RefAdapter 和 FAE。

在不同空间结构的目标图像上进行动作迁移时，红框高亮显示了外观偏差区域。与其他方法相比，FlexiAct 在保持目标图像外观一致性和动作真实性方面表现优异。

人物动作迁移：

动物动作迁移：

https://github.com/shiyi-zh0408/FlexiAct
https://arxiv.org/pdf/2505.03730

欢迎交流~，带你学习AI，了解AI

路过

雷人

握手

鲜花

鸡蛋

收藏邀请

上一篇：腾讯大模型网络提速技术方案获DeepSeek致谢下一篇：京东也联名成毅的《赴山海》了！

腾讯开源全新动作迁移模型FlexiAct，人物 & 动物都支持

最新评论

相关分类

腾讯开源全新动作迁移模型FlexiAct，人物 &amp; 动物都支持

最新评论

相关分类

腾讯开源全新动作迁移模型FlexiAct，人物 & 动物都支持