Kimi刚登顶阿里连发两模型反击国产大模型卷疯了
最近的国产 AI 圈,是真的热闹。
就在上周,月之暗面凭借 Kimi K2 ,一举击败 DeepSeek、阿里 Qwen、Meta Llama,坐上了全球开源模型排行榜的头把交椅。
Kimi K2 登顶开源模型榜首,DeepSeek 和 Qwen 分列第二、第三,国产模型形成三强格局
不过这个“第一”的位置还没捂热,阿里 Qwen 就突然发力,在两天内连续发布两个新模型反击: Qwen3-235B-A22B-Instruct-2507 和 Qwen3-Coder 。
虽然名义上只是“小版本升级”,关注度和实力却一点不小。
Artificial Analysis 排行榜直接发文:“ Qwen3-235B-A22B-Instruct-2507 是目前最强的非推理模型,在 Artificial Analysis 指数上超过了 Kimi K2 和 Claude 4 Opus(非推理) !”
Qwen3-2507 超过 Kimi 和 Claude 4 Opus,在非推理模型中取得领先
那么,这波更新,到底实力如何?
今天就来聊聊阿里 Qwen 的这两个新模型。
01|Qwen3-235B-A22B-Instruct-2507
见名知意。
Qwen3-235B-A22B-Instruct-2507 就是前代模型 Qwen3-235B-A22B 在非思考模式下的一次升级迭代。
之所以强调“非思考模式”,是因为原始版本本身就带有一个非常有意思的设定:混合推理(Hybrid Reasoning)。
简单来说,就像是“一个模型,两个大脑”。遇到简单任务,模型能够不假思索地回答(快思考);但面对复杂难题,模型就会自动切换到推理模式(慢思考)。
而这次发布的 2507 版本,可以看作是对这种“混合架构”的一次拆分。它就是一个纯非推理模型,不再走思维链,主打响应速度、稳定表现,定位更贴近 DeepSeek-V3 和 GPT-4o 这种通用模型。
性能方面,从基准测试结果来看, 2507 撑得起 Artificial Analysis 排行榜官方对它的评价。
Qwen3-2507 在 GPQA、AIME25、LiveCodeBench、Arena-Hard、BFCL 基准测试中的表现对比
在 GPQA(知识推理)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(对齐)、BFCL(Agent 工具使用)这五项测试中,几乎所有指标 2507 都拿下了非推理模型的最高分,平均领先第二名在 5~15 分不等。
尤其是 AIME25, 2507 得分 70.3%,远超前代模型的 24.7%、 Kimi K2 的 49.5% 和 Claude Opus 4 的 33.9%。这对于一个非推理模型来说,属于实打实的提升了。
另外值得一提的是, 2507 的上下文长度已由原来的 131K 提升到了 256K。
当然,基准测试亮眼,实际体验拉跨的模型我们见的也不是一个两个了,所以, 2507 具体怎么样,是否符合你的预期,还需要以真实体验为准。
要使用 2507 也很简单,在 qwen.ai 进入 Qwen Chat,左上角 模型选择 菜单里选 Qwen3-235B-A22B-2507 就行。
完全免费,支持 网页、iOS/安卓 app、以及 macOS 桌面客户端。
在 Qwen Chat 中手动切换 Qwen3-235B-A22B-2507 模型,支持 Web 与客户端
02|Qwen3-Coder
相比 2507 的通用, Qwen3-Coder 明显更加垂直 —— “为代码而生”。
据阿里官方的说法,这次发布的是当前最强版本: Qwen3-Coder-480B-A35B-Instruct 。
采用 MoE 架构,480B 总参数、35B 激活参数,原生上下文支持 256K,借助 YaRN 甚至可以扩展至 100 万 tokens。
在官方提供的评测结果中, Qwen3-Coder 在 Agentic Coding、Browser-Use 和 Tool-Use 等多个“代理式编程”任务上,都实现了开源模型的 SOTA(State of the art,最优)表现,甚至在部分场景上对标 Claude Sonnet-4 。
Qwen3-Coder 基准测试的表现对比
和 Qwen3-Coder 模型配套的,还有一整套命令行工具。这意味着它不仅能“在线使用”,还可以直接“接入开发环境”,上手即用。
Qwen Code(命令行工具) :基于 Gemini CLI 改造而来(从上面的截图也能看出来),支持 OpenAI SDK 接入,安装门槛低、适配好;
Claude Code :支持通过阿里云百炼 API 适配 Claude Code 工具,原地切换后端模型;
Cline :可在 Cline 工具中通过 DashScope 接入 Qwen3-Coder 。
这里不得不提醒一下各位小可爱,如果你是通过阿里云百炼使用 Qwen3-Coder 的 API,需要多加注意它的模型命名和阶梯定价规则。
目前最新的模型版本是 qwen3-coder-plus-2025-07-22 ,而常见的 API 名称 qwen3-coder-plus 实际上也是指向这个 0722 版本。但区别在于,只有 qwen3-coder-plus 这个别名启用了限时折扣,而直接用全名的 0722 版本则是按原价收费。
同时,阶梯定价意味着随着你聊的越来越多,上下文长度会越来越长(上下文累积),费用也会越来越高。举个极端的例子,256K-1M 的成本能达到 20 元/百万输入 tokens,200 元/百万输出 tokens(原价,人民币)。
一句话总结:越聊越贵。
阶梯定价机制下,Token 越多费用单价越高
结语
表面平静,实则暗流汹涌。
国产大模型的竞争,正在悄悄提速。
从 Kimi K2 的突然登顶,到阿里 Qwen 的快速反击,再到像 Qwen3-Coder 这样更偏工程落地的新路线,一个明显的信号是:
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/181.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论