优何软件 首页 软件资讯 其他 查看内容

阿里终于出手,Qwen3正式发布!

2025-4-29 09:11| 来自: 互联网| 发布者: 国内小编


四月的AI界略显沉寂,眼看着这一周就要在平淡中结束。然而,阿里没有让人失望,期待已久的通义千问 Qwen3终于重磅登场,瞬间引爆全网。

这一次,AI界的“汪峰”终于成功抢到了头条。

那么问题来了——这次发布会到底发布了什么?

简单来说,一句话总结:一次发布八款模型,覆盖多种规模与架构,全面开源!

具体来看:

  • 2个MoE模型:分别是Qwen3-235B-A22BQwen3-30B-A3B,分别表示总参数为2350亿和激活约220亿 / 300亿;

  • 6个稠密模型:包括Qwen3-32BQwen3-14BQwen3-8BQwen3-4BQwen3-1.7BQwen3-0.6B

从个位数到千亿级,各种尺寸一应俱全,全部基于 Apache 2.0 协议开源。无论你是科研人员、开发者还是创业者,总有一款适合你。

模型性能怎么样?看数据说话!

旗舰模型Qwen3-235B-A22B在代码、数学以及通用能力等基准测试中,表现极具竞争力,对标 DeepSeek-R1、OpenAI o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型毫不逊色。



更令人惊喜的是,小型 MoE 模型Qwen3-30B-A3B仅激活30亿参数,却拥有接近甚至超越传统大模型(如 QwQ-32B)的表现。即使是轻量级的Qwen3-4B,也能媲美 Qwen2.5-72B-Instruct 的性能。

核心亮点一览1. 双模式推理机制:思考 or 不思考,自由切换

不同于 DeepSeek R1 或 OpenAI o1 这类专注于推理的模型,Qwen3 支持两种思考模式:推理模式非推理模式,并可以在两者之间无缝切换。这种灵活性让用户可以根据任务需求控制模型是否深入“思考”,实用性拉满。


2. 强化 Agent 能力:不只是模型,更是智能体

当前主流模型都在强化对 Agent 的支持,Qwen3 自然也不例外。其 Agent 功能和代码能力经过优化,并增强了对MCP(Multi-Agent Communication Protocol)的支持,进一步提升了多智能体协作的能力。

训练细节揭秘【预训练阶段】

Qwen3 的预训练数据量是 Qwen2.5 的两倍,总计高达36 万亿 token,涵盖119 种语言与方言。整个训练过程分为三个阶段:

  • S1 阶段

    :基础语言技能与通用知识学习;

  • S2 阶段

    :加强 STEM、编程和逻辑推理能力;

  • S3 阶段

    :使用精心挑选的 5 万亿 token 数据集进行微调。


得益于架构优化、数据扩容及高效训练方法,Qwen3 的稠密基础模型在性能上已能匹敌甚至超越更大参数量的 Qwen2.5 模型。例如:

  • Qwen3-1.7B/4B/8B/14B/32B-Base ≈ Qwen2.5-3B/7B/14B/32B/72B-Base

  • 尤其在 STEM、编码和推理领域,Qwen3 表现更为出色。

对于 MoE 模型而言,它们只需激活约10%的参数即可达到与 Qwen2.5 稠密模型相当的性能,显著降低了训练和推理成本。

【后训练流程:四步打造全能模型】

Qwen3 的后训练流程类似于 DeepSeek R1,采用了四阶段策略:


  1. 长思维链冷启动

    使用多样化的长思维链数据(涵盖数学、编程、逻辑推理等)对模型进行初步微调,培养基本推理能力。

  2. 长思维链强化学习

    利用规则奖励机制进行大规模强化学习,提升模型的探索和分析深度。

  3. 思维模式融合

    在包含长思维链和标准指令微调数据的混合数据集上继续训练,实现推理模式与快速响应模式的自然过渡。

  4. 通用强化学习

    最后阶段专注于20多个通用任务领域,包括指令遵循、格式规范、Agent行为等,全面提升模型通用性并纠正潜在不良行为。

总结

Qwen3 的发布不仅是阿里在大模型领域的又一次集中发力,更是对整个 AI 社区的一次重磅回馈。凭借丰富的模型种类、强大的性能表现、灵活的双模式设计以及开源精神,Qwen3 无疑将成为下一阶段 AI 开发者手中的利器。

如果你想理解体验,可以到https://chat.qwen.ai/上面使用。

如需获取更多技术细节或开始使用 Qwen3,欢迎访问阿里官方文档或开源平台。

本文由「AI 范儿」出品

我每天都在更新,如果你觉得这些内容对你有用,

那我们就加个关注、交个朋友。


路过

雷人

握手

鲜花

鸡蛋

最新评论