作者|子川 来源|AI先锋官 字节即将发布的这款视频模型,有点东西。 就在刚刚,香港大学与字节跳动联合发布了一款名为Goku(悟空)的视频生成模型。 据介绍这款模型不仅能够通过文本、图片生成高质量视频,还能直接生成虚拟数字人互动内容,更是被网友称为“市场营销的终结者” 话不多说,先给大家掌掌眼。 像这样。 这样。 以及这样的视频通通都是Goku生成的。 从上面几个案例我们不难看出,Goku可生成的视频,人物手部动作、面部表情、光影效果均高度自然。 同时在权威测试中,Goku的文本到视频生成VBench得分达84.85,创下新纪录(SOTA)。 重点是还支持时长超20秒的高质量视频。 除了Goku以外,还有一个专门为广告场景优化的子模型Goku+,可直接生成数字人视频。 适用于直播带货、客服讲解等场景。例如,输入一段产品说明文本,模型便能生成一个“数字销售员”的讲解视频,表情、手势与语音完美同步。 提示词:一张随意的日常照片——坦率,可能是秘密或自发拍摄的,没有艺术姿势,没有完美的构图,也没有滤镜。光线很自然,整体感觉也很自然。拍摄对象是一位 21 岁的欧洲血统女性,皮肤白皙,金发蓝眼睛,非常有吸引力。她穿着一件羊毛连衣裙,上面别着一个小麦克风——也许她正在接受采访?背景是在室内,她的手在画面中不可见,她正在看着观众。这是一个半身长的照片,以随意的日常方式拍摄。 上传一张书包的图片,模型还可以自动生成产品展示视频。 如果你觉得需要有一个模特来来突出商品的亮点,仅需一张商品图+文字提示,即可生成带真人互动的广告片 是不是有点意思。 不过不好意思,现在还不能玩,官方目前只放出了技术报告,模型具体的发布时间还未定。 技术报告:https://arxiv.org/abs/2502.04896 效果这么好,这论文不得趴一趴。 据论文介绍,Goku的效果很好,主要是因为它采用了多种先进的技术和优化方法。 1. 数据处理和筛选 Goku团队构建了包含3600万视频+1.6亿图像的数据集,并通过美学评分、OCR分析、多模态大模型标注等技术严格筛选数据质量。 2. 联合图像和视频生成 Goku采用了联合图像和视频生成的方法,大家可以理解为把图片和视频放在一起学习。 它用了一个特别的工具,叫做“联合图像-视频变分自编码器”(你可以把它想象成一个压缩机),这个工具可以把图片和视频都变成一种通用的“代码”(就像把不同的语言翻译成一种通用语言)。 这样,模型就能同时学习图片的静态内容和视频的动态内容,最后生成又好看又流畅的图片和视频。 3. 先进的模型架构 Goku使用了基于Transformer的架构,这种架构能够处理复杂的时空关系,使得生成的视频在时间和空间上更加连贯。它还采用了“全注意力机制”,能够更好地捕捉图像和视频中的细节。 4. 优化的训练方法 Goku采用了“流式训练”(Rectified Flow)方法。这种算法相比扩散模型,训练效率更高、收敛速度更快,同时能生成更连贯的时序画面。这一技术解决了传统模型生成视频时易出现的闪烁、断层问题 这下,大家应该知道为什么Goku的效果这么好了吧。 写到最后,突然让小编像起了去年风靡一时的Sora,Sora?似乎已经是上个版本的事了! (又把Sora拉出来反复鞭尸,哈哈哈哈哈~~) 扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。 往期文章回顾 |