优何软件 首页 软件资讯 其他 查看内容

字节跳动发布视频基础大模型“Seaweed海藻”:领先技术引关注! ...

2025-4-15 19:11| 来自: 优何整理| 发布者: 资讯小编

今日,字节跳动旗下火山引擎正式发布视频生成基础大模型“Seaweed海藻”(Seed-Video的缩写),该模型以70亿参数规模实现行业领先的高清视频生成能力,仅需单块40GB显存的GPU即可实时生成1280x720分辨率(720P)视频,并支持进一步采样至2K(2560x1440)分辨率。这一技术突破标志着国产视频大模型在成本效益与生成质量上迈入新阶段,或将为影视制作、广告营销、数字人等场景带来变革。



技术突破:低成本、高分辨率、实时生成

“Seaweed海藻”的核心竞争力在于其“中等规模、高性价比”的设计理念。模型采用Diffusion Transformer(DiT)架构,结合64倍压缩比的VAE(变分自编码器),在仅使用665,000 H100 GPU小时的训练量下,实现了超越同类140亿参数模型的生成效果。相比之下,行业同类模型通常需消耗超百万GPU小时。

在生成能力上,Seaweed支持文本到视频、图像到视频、多镜头叙事控制等功能。例如,用户可为长篇故事提供全局文本描述,或为每个镜头定制细节,模型通过“长上下文调优”技术确保画面连贯性。此外,其“CameraCtrl II”技术允许对摄影机运动轨迹进行控制,而“SimDrop”技术则提升了物理模拟的真实性。


更引人注目的是其实时生成能力:在单GPU环境下,模型可输出24fps帧率、720P分辨率的视频,并支持微调生成动态视频序列。例如,结合字节的“Omnihuman”数字人方案,用户仅需一张图片和一段音频即可生成人物口型、动作匹配的高质量视频。

团队背景:蒋路领衔,谷歌与字节技术基因融合

此次发布的Seaweed模型由字节跳动Seed视频团队主导,团队负责人为前谷歌高级科学家蒋路。蒋路曾负责谷歌视频生成技术研发,并在YouTube、Waymo等产品中推动技术落地,其加盟字节后主导了多项视频生成关键技术的突破。团队另一核心成员冯佳时,作为大模型视觉基础研究负责人,专注于多模态技术的商业化应用。


技术报告显示,团队在数据处理、训练策略和系统优化上进行了多重创新:

数据处理:通过时间分割、空间裁剪、质量过滤等流程,日均处理超50万小时视频数据,确保训练素材的多样性与高质量。

训练优化:采用“多级激活检查点(MLAC)”降低GPU内存占用,并通过“运行时平衡策略”解决图像与视频联合训练的负载不均问题,最终实现38%的模型FLOPs利用率。

行业影响:开源与商业化并行,挑战巨头竞争

Seaweed的发布正值国内视频大模型竞争白热化阶段。此前,阿里通义、腾讯混元、清华Vidu等模型已在长时长生成(如Vidu支持16秒1080P视频)等领域取得进展。然而,Seaweed凭借低部署门槛(单GPU即可运行)和多模态整合能力,在中小型企业市场占据差异化优势。


商业化层面,字节已明确将视频生成技术应用于电商营销、城市文旅、数字人等领域。例如,结合火山引擎的“豆包视频生成-PixelDance”等产品,企业可通过API快速生成营销视频,降低内容制作成本。此外,团队透露正探索“人类反馈强化学习(RLHF)”,以进一步提升生成内容的美学质量和用户偏好匹配度。

未来技术迭代与生态共建

尽管Seaweed已展现强大潜力,团队仍面临诸多挑战。例如,当前模型生成时长仍以秒级为主,与行业头部产品的分钟级生成存在差距;此外,物理世界模拟的精细度亦有提升空间。对此,蒋路表示:“我们将持续优化模型架构,并推动与开发者生态的协同创新。”

随着字节跳动将Seaweed定位为“视频生成基础模型”,其开源策略或成为关键。参考此前豆包大模型的低价策略(价格低于行业99%),Seaweed若开放部分能力,有望加速行业应用普及。

结语

字节跳动此次发布的Seaweed海藻模型,不仅以技术创新突破硬件限制,更通过团队背景与商业化路径的清晰规划,展现了其在AI视频赛道的决心。在“单GPU生成1080P”的背后,是国产大模型从追逐者向引领者蜕变的一小步,亦是AIGC重塑内容生产方式的又一大步。


路过

雷人

握手

鲜花

鸡蛋

最新评论