这一次,AI界的“汪峰”终于成功抢到了头条。 那么问题来了——这次发布会到底发布了什么? 简单来说,一句话总结:一次发布八款模型,覆盖多种规模与架构,全面开源! 具体来看:
从个位数到千亿级,各种尺寸一应俱全,全部基于 Apache 2.0 协议开源。无论你是科研人员、开发者还是创业者,总有一款适合你。 模型性能怎么样?看数据说话! 旗舰模型Qwen3-235B-A22B在代码、数学以及通用能力等基准测试中,表现极具竞争力,对标 DeepSeek-R1、OpenAI o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型毫不逊色。 更令人惊喜的是,小型 MoE 模型Qwen3-30B-A3B仅激活30亿参数,却拥有接近甚至超越传统大模型(如 QwQ-32B)的表现。即使是轻量级的Qwen3-4B,也能媲美 Qwen2.5-72B-Instruct 的性能。 核心亮点一览1. 双模式推理机制:思考 or 不思考,自由切换 不同于 DeepSeek R1 或 OpenAI o1 这类专注于推理的模型,Qwen3 支持两种思考模式:推理模式与非推理模式,并可以在两者之间无缝切换。这种灵活性让用户可以根据任务需求控制模型是否深入“思考”,实用性拉满。 2. 强化 Agent 能力:不只是模型,更是智能体 当前主流模型都在强化对 Agent 的支持,Qwen3 自然也不例外。其 Agent 功能和代码能力经过优化,并增强了对MCP(Multi-Agent Communication Protocol)的支持,进一步提升了多智能体协作的能力。 训练细节揭秘【预训练阶段】 Qwen3 的预训练数据量是 Qwen2.5 的两倍,总计高达36 万亿 token,涵盖119 种语言与方言。整个训练过程分为三个阶段:
得益于架构优化、数据扩容及高效训练方法,Qwen3 的稠密基础模型在性能上已能匹敌甚至超越更大参数量的 Qwen2.5 模型。例如:
对于 MoE 模型而言,它们只需激活约10%的参数即可达到与 Qwen2.5 稠密模型相当的性能,显著降低了训练和推理成本。 【后训练流程:四步打造全能模型】 Qwen3 的后训练流程类似于 DeepSeek R1,采用了四阶段策略:
Qwen3 的发布不仅是阿里在大模型领域的又一次集中发力,更是对整个 AI 社区的一次重磅回馈。凭借丰富的模型种类、强大的性能表现、灵活的双模式设计以及开源精神,Qwen3 无疑将成为下一阶段 AI 开发者手中的利器。 如果你想理解体验,可以到https://chat.qwen.ai/上面使用。 如需获取更多技术细节或开始使用 Qwen3,欢迎访问阿里官方文档或开源平台。 本文由「AI 范儿」出品 我每天都在更新,如果你觉得这些内容对你有用, 那我们就加个关注、交个朋友。 |