优何软件 首页 软件资讯 其他 查看内容

腾讯开源全新角色定制生图框架InstantCharacter

2025-4-20 01:11| 来自: 优何整理| 发布者: 软件小编

好消息!好消息~ 欢迎科研团队供稿 免费分享学术、项目成果

当前基于学习的主题定制方法,主要依赖于U-Net架构,存在泛化能力有限和图像质量降低的问题。与此同时,基于优化的方法需要针对特定主题进行微调,这不可避免地会削弱文本控制能力。为了解决这些挑战,腾讯提出了InstantCharacter—一个基于扩散变压器(diffusion transformer)的可扩展角色定制框架。(链接在文章底部,可在线体验)

InstantCharacter能够实现跨多样角色外观、姿势和风格的开放域个性化,同时保持高保真度的结果。InstantCharacter基于强大的FLUX1.0-dev模型实现,具有三大优势:一是实现了跨多种角色外观、姿势和风格的开放域个性化,同时保持高保真度;二是开发了可扩展的适配器架构,能有效处理角色特征并与扩散变压器潜在空间交互;三是通过三阶段训练方法,结合千万级数据集,优化角色一致性和文本控制。

01 技术原理

现代扩散变压器(DiTs)相比传统的基于UNet的架构,展现了前所未有的保真度和能力,为生成和编辑任务提供了更强大的基础。然而,现有方法主要基于UNet,在角色一致性和图像保真度之间存在基本的权衡,限制了其在开放域角色中的泛化能力。此外,先前的研究尚未成功验证在大规模扩散变压器(例如120亿参数)上的角色定制,导致该领域存在显著空白。通过灵活的适配器设计和阶段性学习策略的协同作用,增强了通用角色定制能力,同时最大限度地保留了基础DiT模型的生成先验。


InstantCharacter框架将可扩展的适配器与预训练的DiT模型无缝集成。适配器由多个堆叠的变压器编码器组成,逐步优化角色表示,能够有效地与DiT的潜在空间进行交互。训练过程采用三阶段渐进策略,首先进行未配对的低分辨率预训练,最终进行配对的高分辨率微调。


02 对比与演示效果

InstantCharacter与最先进的基于FLUX的方法进行了定性比较:OminiControl、EasyControl、ACE+ 和 UNO;以及大型多模态模型GPT4o。为了评估,收集了一组训练数据中未出现的开放域角色图像。分析表明,现有方法存在局限性:OminiControl和EasyControl未能保持角色身份特征,ACE++仅在简单场景中保持部分特征,而在处理动作导向的提示时表现不佳。UNO过度保持一致性,导致行动和背景的可编辑性降低。

值得注意的是,与当前的SoTA方法GPT4o取得了相当的结果,尽管GPT4o并未开源。相比之下,InstantCharacter始终表现最佳。具体而言,InstantCharacter在高保真度的同时,能够优越地保持角色细节,并精确地控制文本,即使在复杂的动作提示下也是如此。

https://github.com/Tencent/InstantCharacter
https://arxiv.org/abs/2504.12395
https://huggingface.co/spaces/InstantX/InstantCharacter

欢迎交流~,带你学习AI,了解AI


路过

雷人

握手

鲜花

鸡蛋

最新评论