只激活3B性能却反超阿里Qwen3Next背后的技术黑魔法

阿里又发布了一个 80B 模型,但只激活 3B?

大模型越来越卷了。

确切地说,是 MoE 大模型。

9 月 12 日凌晨,阿里 Qwen 团队官宣发布 Qwen3-Next-80B-A3B 模型。

小火箭shadowrocket

顾名思义, Qwen3-Next-80B-A3B 是基于 Qwen3-Next 技术架构,总参数为 80B(800 亿),推理时仅激活 3B(30 亿)参数的 MoE 模型。

就是这个只激活了 30 亿参数的“小”模型,基础性能却逼近了 Qwen3-235B-A22B ,推理上更是超过了 320 亿的 Qwen3-32B-Thinking ,而训练成本连 Qwen3-32B 的十分之一都不到。

用阿里官方的话说就是:

更极致的训练和推理性价比。

01|为什么 80B 模型只激活 3B?

这是 MoE 的核心逻辑。

MoE 是 Mixture of Experts 的缩写,也就是混合专家的意思。

传统大模型,每个 token 都要激活全部层级参数,算力爆表。

而 MoE 则是把每层拆成多个专家(Experts),每次只激活其中一小部分。

阿里的这个 Qwen3-Next-80B-A3B ,更是被称为极致稀疏的 MoE:512 个专家,只激活 10 个路由专家和 1 个共享专家。

这样一来:

总模型容量很大(多个专家);

实际推理成本很低(每个 token 只激活小部分专家)。

结果就是,模型在训练时保留了“多、广、深”的优势,但在实际推理时“又快又省”。

02|什么是混合注意力机制?

Qwen3-Next-80B-A3B 模型背后的技术意义,甚至要大于这个模型本身。

传统 Transformer 架构的注意力(Attention)是平方复杂度(O(n^2)),序列长度翻倍,计算量翻 4 倍,长文本直接爆炸。

这就是为什么各大 AI 厂商死抠“上下文长度”的原因。

比如,都 2025 年了,ChatGPT Plus 用户在非推理场景下,最大上下文也还卡在 32K。

小火箭shadowrocket

Qwen3-Next 则提出了一个新思路:混合注意力机制。

75% 用 Gated DeltaNet(高效的线性注意力);

25% 用 Gated Attention(传统的标准注意力)。

其中,Gated DeltaNet 本质上更像是 RNN(Recurrent Neural Network,循环神经网络)。

它不依赖传统的 KV Cache,也不随序列长度线性增长,而是用一个固定大小的状态矩阵,在 O(1) 时间内直接生成下一个 token。

这种机制就像生活中的交通道路组合:大部分走高速(DeltaNet)快速通过,关键路口走普通道路(标准注意力)精准导航。

小火箭shadowrocket

这种架构创新,恐怕才是 Qwen3-Next 名字里真正的“Next”。

03|黑科技:多 Token 预测

传统大模型,每次只预测下一个 token。

阿里这次在 Qwen3-Next-80B-A3B 模型中加入了 MTP(Multi-Token Prediction,多 Token 预测)机制。

讲人话:一次预测多个后续 token,提高生成吞吐量。

对用户来说,这意味着更流畅的文本生成、更少的卡顿、以及更高效的多轮推理效率。

04|Qwen3-Next-80B-A3B 表现怎么样?

Qwen3-Next-80B-A3B 提供两个版本:

Instruct 版本:不思考,快速响应

Thinking 版本:推理模型

先来看来自阿里官方的基准测试结果对比。

红色是 Qwen3-Next-80B-A3B-Instruct ,应该说和 Qwen3-235B-A22B 旗鼓相当,甚至有超越。

小火箭shadowrocket

而自带推理的 Qwen3-Next-80B-A3B-Thinking 则更猛,直接碾压了 Gemini-2.5-Flash Thinking 。

多说一句,毕竟参数量就这么大,要让它和真正的顶级模型比,还是不现实的。

小火箭shadowrocket

再来看 Artificial Analysis 排行榜。

最新的榜单里, Qwen3-Next-80B-A3B-Thinking 赫然已经超越了 DeepSeek-R1 0528 ,并且和 DeepSeek-V3.1 Thinking 同分。

当然,没有完全客观的排行榜,看看就好。最终还是要以实际体验为准。

小火箭shadowrocket

05|Qwen3-Next-80B-A3B 怎么用?

附上 Qwen3-Next-80B-A3B 的使用链接。

在线使用(免费):https://chat.qwen.ai

Huggingface:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

ModelScope:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

结语

Qwen3-Next-80B-A3B ,本质是架构创新的胜利。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/137.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>