2025年4月14日,字节跳动正式发布新一代思考模型Seed-Thinking-v1.5。作为字节在通用人工智能(AGI)方向的重要布局,该模型在数学、编程、科学等高门槛任务中表现惊艳,通过架构、训练、评估方法的全方位重构,在推理效率和泛化能力上实现了平衡。在大模型赛道从通用生成迈向通用推理的关键拐点,Seed-Thinking-v1.5所代表的范式转变,值得被深入剖析。 01 性能亮眼 任务性能与成本的“非对称胜出” 根据公布的数据,Seed-Thinking-v1.5在多个权威评测中表现出色: Benchmark Seed-Thinking-v1.5 DeepSeek R1 OpenAI o3-mini Gemini 2.5 Pro AIME 2024 86.7 79.8 87.3 92.0 GPQA 77.3 71.5 79.7 84.0 Codeforces pass@8 55.0 45.0 67.5 56.3 LiveCodeBench v5 64.9 64.3 74.1 70.4
在通用任务中,模型的人类偏好评估超出DeepSeek R1达8%,说明其在创意生成、写作指令、复杂对话等非结构化场景也具备广泛适用性。 轻量高效的200B MoE模型 与同类SOTA模型相比,Seed-Thinking-v1.5最大亮点在于采用Mixture-of-Experts(MoE)混合专家架构:
这使得Seed-Thinking-v1.5不仅在性能上接近多家顶级厂商的旗舰模型,同时具备更强的部署灵活性和运行经济性。这意味着,在大模型算力日益昂贵的背景下,字节跳动通过结构稀疏化+精准激活+推理路径优化,有效达成低成本可控通用推理。 02 架构创新 像人一样思考的能力范式 如何构成类人的思考范式,字节给出了它的答案,数据、训练、评估三位一体: 1)架构层:技术栈三大支撑
这一系列技术栈优化,使得200B参数的MoE模型训练与部署不再是“暴力算力堆叠”,而是一种有组织、有策略的分布式协作机制。
模型背后的数据策略是其逻辑能力的核心来源。
这种精细化的数据策略,不仅增强了模型对硬逻辑的把握能力,也保留了软创造的生成力。
创新的硬指标 + 软偏好协调机制,有效解决了通用模型长期以来难以同时兼顾逻辑严谨与生成丰富的悖论。 03 对B端的意义 为复杂任务而设计的评估体系 字节团队提出,“现有基准测试题目不再足以区分强弱模型”。因此自研了两大评估基准:
这种主动构建评估鸿沟的做法,提升了模型迭代效率,也推动了行业对模型评测深度的重新理解。 标准化接口+可控成本=落地可能性 对B端生态的意义如何?Seed-Thinking-v1.5 通过火山引擎对外开放接口,向开发者提供如下能力:
这一战略组合表明,Seed-Thinking-v1.5不仅是一个科研成果,更是一种“可控成本下可落地的推理即服务(RaaS)”解决方案。 在过去一年里,大模型的发展已从语言生成进入认知推理阶段。 Seed-Thinking-v1.5以其技术可解释性、训练可控性、场景适配性、成本优化性的多重优势,预示着下一代通用AI模型不再是“更大”,而是“更像人类思考”。 从顶尖竞赛(AIME、GPQA、Codeforces)到通用对话,从结构化逻辑到开放性创意,在精度、效率和泛化力上实现协同提升,将是通用人工智能迈向实际生产力的关键转折。 更多内容,可参考官方发布的文献:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf |