优何软件 › 首页 ›软件资讯› 其他 › 查看内容

字节跳动推视频模型Goku，一键生成数字人直播带货

2025-2-11 13:11| 来自: 优何整理| 发布者: 数码小编

作者｜子川

来源｜AI先锋官

字节即将发布的这款视频模型，有点东西。

就在刚刚，香港大学与字节跳动联合发布了一款名为Goku（悟空）的视频生成模型。

据介绍这款模型不仅能够通过文本、图片生成高质量视频，还能直接生成虚拟数字人互动内容，更是被网友称为“市场营销的终结者”

话不多说，先给大家掌掌眼。

像这样。

这样。

以及这样的视频通通都是Goku生成的。

从上面几个案例我们不难看出，Goku可生成的视频，人物手部动作、面部表情、光影效果均高度自然。

同时在权威测试中，Goku的文本到视频生成VBench得分达84.85，创下新纪录（SOTA）。

重点是还支持时长超20秒的高质量视频。

除了Goku以外，还有一个专门为广告场景优化的子模型Goku+，可直接生成数字人视频。

适用于直播带货、客服讲解等场景。例如，输入一段产品说明文本，模型便能生成一个“数字销售员”的讲解视频，表情、手势与语音完美同步。

提示词：一张随意的日常照片——坦率，可能是秘密或自发拍摄的，没有艺术姿势，没有完美的构图，也没有滤镜。光线很自然，整体感觉也很自然。拍摄对象是一位 21 岁的欧洲血统女性，皮肤白皙，金发蓝眼睛，非常有吸引力。她穿着一件羊毛连衣裙，上面别着一个小麦克风——也许她正在接受采访？背景是在室内，她的手在画面中不可见，她正在看着观众。这是一个半身长的照片，以随意的日常方式拍摄。

上传一张书包的图片，模型还可以自动生成产品展示视频。

如果你觉得需要有一个模特来来突出商品的亮点，仅需一张商品图+文字提示，即可生成带真人互动的广告片

是不是有点意思。

不过不好意思，现在还不能玩，官方目前只放出了技术报告，模型具体的发布时间还未定。

技术报告：https://arxiv.org/abs/2502.04896

效果这么好，这论文不得趴一趴。

据论文介绍，Goku的效果很好，主要是因为它采用了多种先进的技术和优化方法。

1. 数据处理和筛选

Goku团队构建了包含3600万视频+1.6亿图像的数据集，并通过美学评分、OCR分析、多模态大模型标注等技术严格筛选数据质量。

2. 联合图像和视频生成

Goku采用了联合图像和视频生成的方法，大家可以理解为把图片和视频放在一起学习。

它用了一个特别的工具，叫做“联合图像-视频变分自编码器”（你可以把它想象成一个压缩机），这个工具可以把图片和视频都变成一种通用的“代码”（就像把不同的语言翻译成一种通用语言）。