优何软件 首页 软件资讯 其他 查看内容

英伟达新核弹Blackwell Ultra来了!DeepSeek将成为卖卡关键

2025-3-22 03:11| 来自: 互联网| 发布者: 优何整理


3月19日,当全球半导体产业仍在5nm向3nm制程的过渡期挣扎时,英伟达在GTC 2025 大会上通过Blackwell Ultra发起一场“降维打击”;尤其性能跃升并非依赖工艺微缩,而是通过架构革命将AI算力的“不可能三角”(性能、能效、成本)彻底击穿。

与往年一样,英伟达如期发布全新的计算芯片,基于Blackwell Ultra架构的GB300 AI加速芯片,以及下一代AI超级芯片“Rubin”。

作为Blackwell架构的终极形态,GB300 AI芯片(Blackwell Ultra)的发布,也让英伟达在AI芯片领域完成从“性能迭代”到“架构代差”的战略跨越。


图源:英伟达GTC 大会

特别的是,相较于去年的B200,GB300性能提升1.5倍,新的注意力机制提升2倍,拥有20TB HBM高带宽存储提升1.5倍。并且,GB300的突破也重新定义“全球最强AI芯片”。

高带宽内存(HBM3e)的堆叠式升级:Blackwell Ultra首次采用12层堆叠的HBM3e内存,显存容量提升至288GB,带宽达14.4 TB/s,较前代Hopper H100的3.35 TB/s提升4.3倍。

多芯片模块(MCM)的原子化封装:Blackwell Ultra通过台积电CoWoS-L 3D封装技术,将72个GPU Tile与36个Grace CPU Tile集成于单个基板,形成“超异构计算集群”。每个Tile间通过硅中介层互联,带宽达14.4 TB/s,跨芯片延迟降至12ns,逼近单Die内通信水平。

动态稀疏计算引擎(DSCE):Blackwell Ultra在Tensor Core中集成硬件级稀疏加速单元,支持非结构化稀疏模式的实时检测与跳过无效计算,稀疏加速效率达98%。在FP4精度下,其有效算力较稠密模式提升7倍,内存占用减少83%。


图源:英伟达GTC 大会

液冷技术与能效优化:为应对高达1400W的TDP功耗8,Blackwell Ultra引入嵌入式微流道液冷系统,散热效率较传统风冷提升8倍,单机架(72 GPU)峰值功耗仅42kW,较同规模H100集群降低57%。结合动态电压频率调节(DVFS),部分负载场景下能效比可达H100的40倍。

AI工厂操作系统Dynamo:英伟达推出的分布式推理服务库Dynamo,通过动态任务调度与资源分配,将开源模型推理速度提升30倍。在Blackwell Ultra平台上,Dynamo可同时管理30万并发推理任务(H100为4.5万),且服务等级协议(SLA)违规率下降92%。

与此同时,AI或将不再独钟于英伟达显卡,但市面需要更多的是算力;然而按下这场算力竞赛加速键的企业,或许正是DeepSeek。


图源:英伟达GTC 大会

在本次演讲中,DeepSeek的出场率极其高,甚至接棒了去年热议的ChatGPT,黄仁勋用DeepSeek来诠释AI算力需求不仅没有下降,反而在增长。作为范例与DeepSeek对比的是LLama 3,一个传统的AI大模型,在回答同个问题时,LLama只用了不到500 Token就输出了回答,而DeepSeek则是用了高达8559 Token来输出答案。

结果显而易见,LLama给出错误答案,而DeepSeek则答对了,为避免大家觉得DeepSeek-R1用671B的参数量“欺负”只有70B参数量的LLama,演示视频还贴心地备注“活跃参数37B”的字样。这也是DeepSeek-R1这类稀疏型AI大模型的特点,虽参数量庞大,但每次实际调用的参数量并不算多,似乎比传统AI大模型更少。

众所周知,Scaling Law之于AI,正如摩尔定律之于芯片。简而言之就是“大力出奇迹”定律:数据越多、算力越强、模型越大,因此“DeepSeek的出现反而证明市场仍需更多AI芯片”。

目前,从生成式AI发展到Agentic AI,并不代表Scaling Law法则失效。

相反的是,由于将应用范围从训练进一步扩展到推理,不只在预训练环节,模型的后训练(Post-Training,指预训练得到模型后,根据特定任务或需求,使用更小规模、更专注的数据集对模型进行进一步优化训练或微调的过程)和日常推理的长期思考(Long-Thinking)都要继续消耗算力资源,Scaling Law法则对规模的要求非但会变小,相反会进一步扩大。


图源:英伟达GTC 大会

综上所述,Blackwell Ultra的发布,或许会被历史视为AI算力从“量变”到“质变”的转折点。

这场革命的意义,不亚于当年晶体管取代真空管。而随着Blackwell Ultra与Rubin架构的路线图曝光,英伟达已明确将技术迭代周期压缩至一年,这意味着:未来的AI竞争,不再是“谁能造出最大芯片”,而是“谁能最快将算力转化为生产力”。

由于篇幅受限,本次的英伟达AI芯片就先介绍这么多......

想了解更多半导体行业动态,请您持续关注我们。

奇普乐将在每周,不定时更新~


最后的最后,借由阳明的一句名言:

种子的黑土期,是光明诞生的必修课。

愿每一位半导体从业者可以——

破土凌云、深根见月!

奇普乐 · 往期文章


路过

雷人

握手

鲜花

鸡蛋

最新评论