好消息! 好消息~ 欢迎科研团队供稿 免费分享学术 项目成果 动作定制旨在生成视频,使其中的主体能够按照输入的控制信号执行指定动作。当前的方法主要依赖于姿态引导或整体运动定制,但由于在空间结构方面(如布局、骨架和视角一致性)存在严格限制,这些方法在应对多样化主体和场景时的适应性较差。 为了解决这一问题,清华携手腾讯提出了FlexiAct,给定一张目标图像,FlexiAct 能将参考视频中的动作迁移至目标主体,即使在空间结构差异较大或跨域的异构场景中,也能实现精准的动作适配与外观一致性。与现有方法不同,FlexiAct 允许参考视频中的主体与目标图像之间在布局、视角和骨架结构上存在差异,同时保持身份一致性。(链接在文章底部) 01 技术原理 实现这一目标需要对动作进行精确控制、适应空间结构变化,并保持外观一致性。为此,引入了RefAdapter,这是一种轻量级、以图像为条件的适配器,擅长于空间结构的适配和一致性保持,在外观一致性与结构灵活性之间达到了优于现有方法的平衡。 FlexiAct 方法概览:(1)上半部分展示了 RefAdapter 的训练过程,该模块以任意图像帧为条件,使动作能够在不同空间结构之间顺利迁移;(2)下半部分展示了 FAE 的训练与推理流程,其中视频 token 对频率感知嵌入的注意力权重会根据去噪时间步动态调整,从而实现动作的有效提取。 此外,去噪过程中对运动(低频)和外观细节(高频)的关注程度在不同时间步呈现出差异性。因此,提出了FAE(Frequency-aware Action Extraction,频率感知动作提取),与依赖独立时空架构的现有方法不同,FAE 直接在去噪过程中完成动作提取。 02 对比与演示 对比方法:现有的动作迁移方法包括基于预定义信号和全局运动的方法,后者在处理非人类实体或骨架差异较大的主体时效果更好。使用MotionDirector 作为基准,重新实现并在更强大的 CogVideoX-I2V主干网络上训练,确保公平比较。此外,还实现了一个基础模型(BaseModel),直接通过标准可学习嵌入学习动作,不使用RefAdapter 和 FAE。 在不同空间结构的目标图像上进行动作迁移时,红框高亮显示了外观偏差区域。与其他方法相比,FlexiAct 在保持目标图像外观一致性和动作真实性方面表现优异。 人物动作迁移: 动物动作迁移:
欢迎交流~,带你学习AI,了解AI |