只激活3B性能却反超阿里Qwen3Next背后的技术黑魔法
阿里又发布了一个 80B 模型,但只激活 3B?
大模型越来越卷了。
确切地说,是 MoE 大模型。
9 月 12 日凌晨,阿里 Qwen 团队官宣发布 Qwen3-Next-80B-A3B 模型。
顾名思义, Qwen3-Next-80B-A3B 是基于 Qwen3-Next 技术架构,总参数为 80B(800 亿),推理时仅激活 3B(30 亿)参数的 MoE 模型。
就是这个只激活了 30 亿参数的“小”模型,基础性能却逼近了 Qwen3-235B-A22B ,推理上更是超过了 320 亿的 Qwen3-32B-Thinking ,而训练成本连 Qwen3-32B 的十分之一都不到。
用阿里官方的话说就是:
更极致的训练和推理性价比。
01|为什么 80B 模型只激活 3B?
这是 MoE 的核心逻辑。
MoE 是 Mixture of Experts 的缩写,也就是混合专家的意思。
传统大模型,每个 token 都要激活全部层级参数,算力爆表。
而 MoE 则是把每层拆成多个专家(Experts),每次只激活其中一小部分。
阿里的这个 Qwen3-Next-80B-A3B ,更是被称为极致稀疏的 MoE:512 个专家,只激活 10 个路由专家和 1 个共享专家。
这样一来:
总模型容量很大(多个专家);
实际推理成本很低(每个 token 只激活小部分专家)。
结果就是,模型在训练时保留了“多、广、深”的优势,但在实际推理时“又快又省”。
02|什么是混合注意力机制?
Qwen3-Next-80B-A3B 模型背后的技术意义,甚至要大于这个模型本身。
传统 Transformer 架构的注意力(Attention)是平方复杂度(O(n^2)),序列长度翻倍,计算量翻 4 倍,长文本直接爆炸。
这就是为什么各大 AI 厂商死抠“上下文长度”的原因。
比如,都 2025 年了,ChatGPT Plus 用户在非推理场景下,最大上下文也还卡在 32K。
Qwen3-Next 则提出了一个新思路:混合注意力机制。
75% 用 Gated DeltaNet(高效的线性注意力);
25% 用 Gated Attention(传统的标准注意力)。
其中,Gated DeltaNet 本质上更像是 RNN(Recurrent Neural Network,循环神经网络)。
它不依赖传统的 KV Cache,也不随序列长度线性增长,而是用一个固定大小的状态矩阵,在 O(1) 时间内直接生成下一个 token。
这种机制就像生活中的交通道路组合:大部分走高速(DeltaNet)快速通过,关键路口走普通道路(标准注意力)精准导航。
这种架构创新,恐怕才是 Qwen3-Next 名字里真正的“Next”。
03|黑科技:多 Token 预测
传统大模型,每次只预测下一个 token。
阿里这次在 Qwen3-Next-80B-A3B 模型中加入了 MTP(Multi-Token Prediction,多 Token 预测)机制。
讲人话:一次预测多个后续 token,提高生成吞吐量。
对用户来说,这意味着更流畅的文本生成、更少的卡顿、以及更高效的多轮推理效率。
04|Qwen3-Next-80B-A3B 表现怎么样?
Qwen3-Next-80B-A3B 提供两个版本:
Instruct 版本:不思考,快速响应
Thinking 版本:推理模型
先来看来自阿里官方的基准测试结果对比。
红色是 Qwen3-Next-80B-A3B-Instruct ,应该说和 Qwen3-235B-A22B 旗鼓相当,甚至有超越。
而自带推理的 Qwen3-Next-80B-A3B-Thinking 则更猛,直接碾压了 Gemini-2.5-Flash Thinking 。
多说一句,毕竟参数量就这么大,要让它和真正的顶级模型比,还是不现实的。
再来看 Artificial Analysis 排行榜。
最新的榜单里, Qwen3-Next-80B-A3B-Thinking 赫然已经超越了 DeepSeek-R1 0528 ,并且和 DeepSeek-V3.1 Thinking 同分。
当然,没有完全客观的排行榜,看看就好。最终还是要以实际体验为准。
05|Qwen3-Next-80B-A3B 怎么用?
附上 Qwen3-Next-80B-A3B 的使用链接。
在线使用(免费):https://chat.qwen.ai
Huggingface:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
ModelScope:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a
Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b
结语
Qwen3-Next-80B-A3B ,本质是架构创新的胜利。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/137.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论