只激活3B性能却反超阿里Qwen3Next背后的技术黑魔法

小火箭shadowrocket • 2026年1月26日 am8:01 • 小火箭

阿里又发布了一个 80B 模型，但只激活 3B？

大模型越来越卷了。

确切地说，是 MoE 大模型。

9 月 12 日凌晨，阿里 Qwen 团队官宣发布 Qwen3-Next-80B-A3B 模型。

顾名思义， Qwen3-Next-80B-A3B 是基于 Qwen3-Next 技术架构，总参数为 80B（800 亿），推理时仅激活 3B（30 亿）参数的 MoE 模型。

就是这个只激活了 30 亿参数的“小”模型，基础性能却逼近了 Qwen3-235B-A22B ，推理上更是超过了 320 亿的 Qwen3-32B-Thinking ，而训练成本连 Qwen3-32B 的十分之一都不到。

用阿里官方的话说就是：

更极致的训练和推理性价比。

01｜为什么 80B 模型只激活 3B？

这是 MoE 的核心逻辑。

MoE 是 Mixture of Experts 的缩写，也就是混合专家的意思。

传统大模型，每个 token 都要激活全部层级参数，算力爆表。

而 MoE 则是把每层拆成多个专家（Experts），每次只激活其中一小部分。

阿里的这个 Qwen3-Next-80B-A3B ，更是被称为极致稀疏的 MoE：512 个专家，只激活 10 个路由专家和 1 个共享专家。

这样一来：

总模型容量很大（多个专家）；

实际推理成本很低（每个 token 只激活小部分专家）。

结果就是，模型在训练时保留了“多、广、深”的优势，但在实际推理时“又快又省”。

02｜什么是混合注意力机制？

Qwen3-Next-80B-A3B 模型背后的技术意义，甚至要大于这个模型本身。

传统 Transformer 架构的注意力（Attention）是平方复杂度（O(n^2)），序列长度翻倍，计算量翻 4 倍，长文本直接爆炸。

这就是为什么各大 AI 厂商死抠“上下文长度”的原因。

比如，都 2025 年了，ChatGPT Plus 用户在非推理场景下，最大上下文也还卡在 32K。

Qwen3-Next 则提出了一个新思路：混合注意力机制。

75% 用 Gated DeltaNet（高效的线性注意力）；

25% 用 Gated Attention（传统的标准注意力）。

其中，Gated DeltaNet 本质上更像是 RNN（Recurrent Neural Network，循环神经网络）。

它不依赖传统的 KV Cache，也不随序列长度线性增长，而是用一个固定大小的状态矩阵，在 O(1) 时间内直接生成下一个 token。

这种机制就像生活中的交通道路组合：大部分走高速（DeltaNet）快速通过，关键路口走普通道路（标准注意力）精准导航。

这种架构创新，恐怕才是 Qwen3-Next 名字里真正的“Next”。

03｜黑科技：多 Token 预测

传统大模型，每次只预测下一个 token。

阿里这次在 Qwen3-Next-80B-A3B 模型中加入了 MTP（Multi-Token Prediction，多 Token 预测）机制。

讲人话：一次预测多个后续 token，提高生成吞吐量。

对用户来说，这意味着更流畅的文本生成、更少的卡顿、以及更高效的多轮推理效率。

04｜Qwen3-Next-80B-A3B 表现怎么样？

Qwen3-Next-80B-A3B 提供两个版本：

Instruct 版本：不思考，快速响应

Thinking 版本：推理模型

先来看来自阿里官方的基准测试结果对比。

红色是 Qwen3-Next-80B-A3B-Instruct ，应该说和 Qwen3-235B-A22B 旗鼓相当，甚至有超越。

而自带推理的 Qwen3-Next-80B-A3B-Thinking 则更猛，直接碾压了 Gemini-2.5-Flash Thinking 。

多说一句，毕竟参数量就这么大，要让它和真正的顶级模型比，还是不现实的。

再来看 Artificial Analysis 排行榜。

最新的榜单里， Qwen3-Next-80B-A3B-Thinking 赫然已经超越了 DeepSeek-R1 0528 ，并且和 DeepSeek-V3.1 Thinking 同分。

当然，没有完全客观的排行榜，看看就好。最终还是要以实际体验为准。

05｜Qwen3-Next-80B-A3B 怎么用？

附上 Qwen3-Next-80B-A3B 的使用链接。

在线使用（免费）：https://chat.qwen.ai

Huggingface：https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

ModelScope：https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a

Kaggle：https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

结语

Qwen3-Next-80B-A3B ，本质是架构创新的胜利。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/137.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

PerplexityLabs上线10分钟自动交付项目成果AI终于能干活了

< <上一篇

DeepSeek登上自然封面全球首个通过同行评审的大模型

下一篇>>

搜索内容

只激活3B性能却反超阿里Qwen3Next背后的技术黑魔法

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章