Kimi刚登顶阿里连发两模型反击国产大模型卷疯了

小火箭shadowrocket • 2026年1月19日 am8:02 • 小火箭

最近的国产 AI 圈，是真的热闹。

就在上周，月之暗面凭借 Kimi K2 ，一举击败 DeepSeek、阿里 Qwen、Meta Llama，坐上了全球开源模型排行榜的头把交椅。

Kimi K2 登顶开源模型榜首，DeepSeek 和 Qwen 分列第二、第三，国产模型形成三强格局

不过这个“第一”的位置还没捂热，阿里 Qwen 就突然发力，在两天内连续发布两个新模型反击： Qwen3-235B-A22B-Instruct-2507 和 Qwen3-Coder 。

虽然名义上只是“小版本升级”，关注度和实力却一点不小。

Artificial Analysis 排行榜直接发文：“ Qwen3-235B-A22B-Instruct-2507 是目前最强的非推理模型，在 Artificial Analysis 指数上超过了 Kimi K2 和 Claude 4 Opus（非推理）！”

Qwen3-2507 超过 Kimi 和 Claude 4 Opus，在非推理模型中取得领先

那么，这波更新，到底实力如何？

今天就来聊聊阿里 Qwen 的这两个新模型。

01｜Qwen3-235B-A22B-Instruct-2507

见名知意。

Qwen3-235B-A22B-Instruct-2507 就是前代模型 Qwen3-235B-A22B 在非思考模式下的一次升级迭代。

之所以强调“非思考模式”，是因为原始版本本身就带有一个非常有意思的设定：混合推理（Hybrid Reasoning）。

简单来说，就像是“一个模型，两个大脑”。遇到简单任务，模型能够不假思索地回答（快思考）；但面对复杂难题，模型就会自动切换到推理模式（慢思考）。

而这次发布的 2507 版本，可以看作是对这种“混合架构”的一次拆分。它就是一个纯非推理模型，不再走思维链，主打响应速度、稳定表现，定位更贴近 DeepSeek-V3 和 GPT-4o 这种通用模型。

性能方面，从基准测试结果来看， 2507 撑得起 Artificial Analysis 排行榜官方对它的评价。

Qwen3-2507 在 GPQA、AIME25、LiveCodeBench、Arena-Hard、BFCL 基准测试中的表现对比

在 GPQA（知识推理）、AIME25（数学）、LiveCodeBench（编程）、Arena-Hard（对齐）、BFCL（Agent 工具使用）这五项测试中，几乎所有指标 2507 都拿下了非推理模型的最高分，平均领先第二名在 5~15 分不等。

尤其是 AIME25， 2507 得分 70.3%，远超前代模型的 24.7%、 Kimi K2 的 49.5% 和 Claude Opus 4 的 33.9%。这对于一个非推理模型来说，属于实打实的提升了。

另外值得一提的是， 2507 的上下文长度已由原来的 131K 提升到了 256K。

当然，基准测试亮眼，实际体验拉跨的模型我们见的也不是一个两个了，所以， 2507 具体怎么样，是否符合你的预期，还需要以真实体验为准。

要使用 2507 也很简单，在 qwen.ai 进入 Qwen Chat，左上角模型选择菜单里选 Qwen3-235B-A22B-2507 就行。

完全免费，支持网页、iOS/安卓 app、以及 macOS 桌面客户端。

在 Qwen Chat 中手动切换 Qwen3-235B-A22B-2507 模型，支持 Web 与客户端

02｜Qwen3-Coder

相比 2507 的通用， Qwen3-Coder 明显更加垂直 —— “为代码而生”。

据阿里官方的说法，这次发布的是当前最强版本： Qwen3-Coder-480B-A35B-Instruct 。

采用 MoE 架构，480B 总参数、35B 激活参数，原生上下文支持 256K，借助 YaRN 甚至可以扩展至 100 万 tokens。

在官方提供的评测结果中， Qwen3-Coder 在 Agentic Coding、Browser-Use 和 Tool-Use 等多个“代理式编程”任务上，都实现了开源模型的 SOTA（State of the art，最优）表现，甚至在部分场景上对标 Claude Sonnet-4 。

Qwen3-Coder 基准测试的表现对比

和 Qwen3-Coder 模型配套的，还有一整套命令行工具。这意味着它不仅能“在线使用”，还可以直接“接入开发环境”，上手即用。

Qwen Code（命令行工具）：基于 Gemini CLI 改造而来（从上面的截图也能看出来），支持 OpenAI SDK 接入，安装门槛低、适配好；

Claude Code ：支持通过阿里云百炼 API 适配 Claude Code 工具，原地切换后端模型；

Cline ：可在 Cline 工具中通过 DashScope 接入 Qwen3-Coder 。

这里不得不提醒一下各位小可爱，如果你是通过阿里云百炼使用 Qwen3-Coder 的 API，需要多加注意它的模型命名和阶梯定价规则。

目前最新的模型版本是 qwen3-coder-plus-2025-07-22 ，而常见的 API 名称 qwen3-coder-plus 实际上也是指向这个 0722 版本。但区别在于，只有 qwen3-coder-plus 这个别名启用了限时折扣，而直接用全名的 0722 版本则是按原价收费。

同时，阶梯定价意味着随着你聊的越来越多，上下文长度会越来越长（上下文累积），费用也会越来越高。举个极端的例子，256K-1M 的成本能达到 20 元/百万输入 tokens，200 元/百万输出 tokens（原价，人民币）。

一句话总结：越聊越贵。

阶梯定价机制下，Token 越多费用单价越高

结语

表面平静，实则暗流汹涌。

国产大模型的竞争，正在悄悄提速。

从 Kimi K2 的突然登顶，到阿里 Qwen 的快速反击，再到像 Qwen3-Coder 这样更偏工程落地的新路线，一个明显的信号是：

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/181.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

不是Kimi你这次来真的啊

< <上一篇

前端已死5分钟我用Claude37Sonnet复刻了10款童年经典小游戏

下一篇>>

搜索内容

Kimi刚登顶阿里连发两模型反击国产大模型卷疯了

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章