刚刚DeepSeekV32正式发布四枚金牌开源模型第一次追平GPT5

继上周发布数学推理模型 DeepSeekMath-V2 后,DeepSeek 再出手。

这一次,是 DeepSeek-V3.2 系列模型。

Word文档图片

其实两个月前,DeepSeek 就发布了实验版 V3.2-Exp ,说是要收集用户反馈。

今天,正式版来了,而且一次来了俩。

01|两个版本,两种定位

先说这两个模型的区别,因为你可能会搞混。

DeepSeek-V3.2(标准版)

标准版是给你「日常使用」的。

DeepSeek 官网、App、API 都已经更新到这个版本。

官方的说法是达到了 GPT-5 水平。

从公布的基准测试数据来看,确实和 GPT-5 High 不相上下,有些指标甚至更强。

当然,比起当红靓仔 Gemini 3 Pro ,还是要差一点。

Word文档图片

DeepSeek-V3.2-Speciale(研究版)

这个模型是给你用来「极限推理」的。

你可以把它当成高算力的 DeepSeek-V3.2 与上周发布的 DeepSeekMath-V2 的合体版本。

它放宽了输出长度限制,让模型可以进行更深度的思考。

但,token 消耗量大幅增加。

所以, DeepSeek-V3.2-Speciale 的使用场景是:「高难度复杂任务」。

它的实力毋庸置疑。

4 块金牌:IMO 2025、CMO 2025、ICPC 世界总决赛、IOI 2025。

在主流推理基准测试中,它和 Gemini 3 Pro 打得有来有回。

Word文档图片

但切记,它不是给你日常使用的。

也正因为 token 消耗大、成本高,DeepSeek 官方强调这个模型目前只供研究使用,不支持工具调用,也没有针对日常对话优化。

并且,仅开放临时 API,有效期到北京时间 12 月 15 日 23:59;价格和 V3.2 一样。

想体验的小可爱抓紧了。

02|DSA 稀疏注意力

V3.2 ( V3.2-Exp 也是)的核心架构叫做「DSA」(DeepSeek Sparse Attention)。

这是一种稀疏注意力机制。

传统注意力有个问题:每生成一个新 token,模型都要回顾所有历史内容。

计算复杂度是平方级别的。

而 DSA 的思路是:不是所有历史信息都同等重要。

它引入了一个「索引器」(Lightning Indexer),快速判断哪些 token 是关键,然后只对这些部分执行精细计算。

最终核心注意力的复杂度大幅降低。

实际效果:

在 128K 上下文长度下, V3.2 的推理成本比 V3.1-Terminus 降低了 50-70%。

03|Agent 能力:思考 + 工具,终于打通了

这是最实用的更新之一。

以前,DeepSeek 的深度思考和工具调用是互斥的。

模型要么思考,要么调用工具,不能同时进行。

V3.2 解决了这个问题。

它现在可以一边思考,一边调用搜索、代码执行工具,然后基于返回的结果继续推理。

整个过程相当丝滑。

为了训练这个能力,DeepSeek 构建了 1800 多个不同环境和 85000 多条复杂指令,用大规模强化学习来训练模型。

效果如何?

开源第一。

和闭源相比有差距,但已经不大了。

比如 Agent 评测 τ²-Bench 准确率 80.3%,和 GPT-5 High 基本持平。

Word文档图片

04|怎么用

标准版 V3.2 已经更新到官网、App 和 API,直接用。

V3.2-Speciale 只有 API,且需要单独设置:

base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"

注意:体验截止时间是北京时间 12 月 15 日 23:59。

这两个模型都已在 HuggingFace 和 ModelScope 开源,MIT 协议。

结语

DeepSeek 在技术报告里坦诚地指出了自身的两个不足:token 效率不如 Gemini-3.0-Pro ,部分 Agent 任务还落后于顶级闭源模型。

但反过来看。

一个开源模型,在基准测试上追平 GPT-5 ,在国际竞赛中拿下四枚金牌。

这本身就是一个里程碑。

更重要的是,这些能力现在是开源的。

任何人都可以下载、微调、部署。

所以我说,DeepSeek 每一次发布新模型带来的意义,可能都超过了模型本身。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/66.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>