阿里终于出手，Qwen3正式发布！

2025-4-29 09:11| 来自: 互联网| 发布者: 国内小编

四月的AI界略显沉寂，眼看着这一周就要在平淡中结束。然而，阿里没有让人失望，期待已久的通义千问 Qwen3终于重磅登场，瞬间引爆全网。

这一次，AI界的“汪峰”终于成功抢到了头条。

那么问题来了——这次发布会到底发布了什么？

简单来说，一句话总结：一次发布八款模型，覆盖多种规模与架构，全面开源！

具体来看：

2个MoE模型：分别是Qwen3-235B-A22B和Qwen3-30B-A3B，分别表示总参数为2350亿和激活约220亿 / 300亿；
6个稠密模型：包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。

从个位数到千亿级，各种尺寸一应俱全，全部基于 Apache 2.0 协议开源。无论你是科研人员、开发者还是创业者，总有一款适合你。

模型性能怎么样？看数据说话！

旗舰模型Qwen3-235B-A22B在代码、数学以及通用能力等基准测试中，表现极具竞争力，对标 DeepSeek-R1、OpenAI o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型毫不逊色。

更令人惊喜的是，小型 MoE 模型Qwen3-30B-A3B仅激活30亿参数，却拥有接近甚至超越传统大模型（如 QwQ-32B）的表现。即使是轻量级的Qwen3-4B，也能媲美 Qwen2.5-72B-Instruct 的性能。

核心亮点一览1. 双模式推理机制：思考 or 不思考，自由切换

不同于 DeepSeek R1 或 OpenAI o1 这类专注于推理的模型，Qwen3 支持两种思考模式：推理模式与非推理模式，并可以在两者之间无缝切换。这种灵活性让用户可以根据任务需求控制模型是否深入“思考”，实用性拉满。

2. 强化 Agent 能力：不只是模型，更是智能体

当前主流模型都在强化对 Agent 的支持，Qwen3 自然也不例外。其 Agent 功能和代码能力经过优化，并增强了对MCP（Multi-Agent Communication Protocol）的支持，进一步提升了多智能体协作的能力。

训练细节揭秘【预训练阶段】

Qwen3 的预训练数据量是 Qwen2.5 的两倍，总计高达36 万亿 token，涵盖119 种语言与方言。整个训练过程分为三个阶段：

得益于架构优化、数据扩容及高效训练方法，Qwen3 的稠密基础模型在性能上已能匹敌甚至超越更大参数量的 Qwen2.5 模型。例如：

对于 MoE 模型而言，它们只需激活约10%的参数即可达到与 Qwen2.5 稠密模型相当的性能，显著降低了训练和推理成本。

【后训练流程：四步打造全能模型】

Qwen3 的后训练流程类似于 DeepSeek R1，采用了四阶段策略：

总结

Qwen3 的发布不仅是阿里在大模型领域的又一次集中发力，更是对整个 AI 社区的一次重磅回馈。凭借丰富的模型种类、强大的性能表现、灵活的双模式设计以及开源精神，Qwen3 无疑将成为下一阶段 AI 开发者手中的利器。

如果你想理解体验，可以到https://chat.qwen.ai/上面使用。

如需获取更多技术细节或开始使用 Qwen3，欢迎访问阿里官方文档或开源平台。

本文由「AI 范儿」出品

我每天都在更新，如果你觉得这些内容对你有用，

那我们就加个关注、交个朋友。

上一篇：阿里系大动作下一篇：英伟达新热修复驱动发布修复悟空变身就崩溃问题

相关分类