优何软件 首页 软件资讯 其他 查看内容

字节跳动推视频模型Goku,一键生成数字人直播带货

2025-2-11 13:11| 来自: 优何整理| 发布者: 数码小编

作者|子川

来源|AI先锋官

字节即将发布的这款视频模型,有点东西。

就在刚刚,香港大学与字节跳动联合发布了一款名为Goku(悟空)的视频生成模型。

据介绍这款模型不仅能够通过文本、图片生成高质量视频,还能直接生成虚拟数字人互动内容,更是被网友称为“市场营销的终结者”

话不多说,先给大家掌掌眼。

像这样。

这样。

以及这样的视频通通都是Goku生成的。

从上面几个案例我们不难看出,Goku可生成的视频,人物手部动作、面部表情、光影效果均高度自然。

同时在权威测试中,Goku的文本到视频生成VBench得分达84.85,创下新纪录(SOTA)。

重点是还支持时长超20秒的高质量视频。

除了Goku以外,还有一个专门为广告场景优化的子模型Goku+,可直接生成数字人视频。

适用于直播带货、客服讲解等场景。例如,输入一段产品说明文本,模型便能生成一个“数字销售员”的讲解视频,表情、手势与语音完美同步。

提示词:一张随意的日常照片——坦率,可能是秘密或自发拍摄的,没有艺术姿势,没有完美的构图,也没有滤镜。光线很自然,整体感觉也很自然。拍摄对象是一位 21 岁的欧洲血统女性,皮肤白皙,金发蓝眼睛,非常有吸引力。她穿着一件羊毛连衣裙,上面别着一个小麦克风——也许她正在接受采访?背景是在室内,她的手在画面中不可见,她正在看着观众。这是一个半身长的照片,以随意的日常方式拍摄。

上传一张书包的图片,模型还可以自动生成产品展示视频。

如果你觉得需要有一个模特来来突出商品的亮点,仅需一张商品图+文字提示,即可生成带真人互动的广告片

是不是有点意思。

不过不好意思,现在还不能玩,官方目前只放出了技术报告,模型具体的发布时间还未定。

技术报告:https://arxiv.org/abs/2502.04896

效果这么好,这论文不得趴一趴。

据论文介绍,Goku的效果很好,主要是因为它采用了多种先进的技术和优化方法。

1. 数据处理和筛选

Goku团队构建了包含3600万视频+1.6亿图像的数据集,并通过美学评分、OCR分析、多模态大模型标注等技术严格筛选数据质量。

2. 联合图像和视频生成

Goku采用了联合图像和视频生成的方法,大家可以理解为把图片和视频放在一起学习。

它用了一个特别的工具,叫做“联合图像-视频变分自编码器”(你可以把它想象成一个压缩机),这个工具可以把图片和视频都变成一种通用的“代码”(就像把不同的语言翻译成一种通用语言)。

这样,模型就能同时学习图片的静态内容和视频的动态内容,最后生成又好看又流畅的图片和视频。

3. 先进的模型架构

Goku使用了基于Transformer的架构,这种架构能够处理复杂的时空关系,使得生成的视频在时间和空间上更加连贯。它还采用了“全注意力机制”,能够更好地捕捉图像和视频中的细节。

4. 优化的训练方法

Goku采用了“流式训练”(Rectified Flow)方法。这种算法相比扩散模型,训练效率更高、收敛速度更快,同时能生成更连贯的时序画面。这一技术解决了传统模型生成视频时易出现的闪烁、断层问题

这下,大家应该知道为什么Goku的效果这么好了吧。

写到最后,突然让小编像起了去年风靡一时的Sora,Sora?似乎已经是上个版本的事了!

(又把Sora拉出来反复鞭尸,哈哈哈哈哈~~)

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾


路过

雷人

握手

鲜花

鸡蛋

最新评论