刚刚DeepSeekV32正式发布四枚金牌开源模型第一次追平GPT5
继上周发布数学推理模型 DeepSeekMath-V2 后,DeepSeek 再出手。
这一次,是 DeepSeek-V3.2 系列模型。
其实两个月前,DeepSeek 就发布了实验版 V3.2-Exp ,说是要收集用户反馈。
今天,正式版来了,而且一次来了俩。
01|两个版本,两种定位
先说这两个模型的区别,因为你可能会搞混。
DeepSeek-V3.2(标准版)
标准版是给你「日常使用」的。
DeepSeek 官网、App、API 都已经更新到这个版本。
官方的说法是达到了 GPT-5 水平。
从公布的基准测试数据来看,确实和 GPT-5 High 不相上下,有些指标甚至更强。
当然,比起当红靓仔 Gemini 3 Pro ,还是要差一点。
DeepSeek-V3.2-Speciale(研究版)
这个模型是给你用来「极限推理」的。
你可以把它当成高算力的 DeepSeek-V3.2 与上周发布的 DeepSeekMath-V2 的合体版本。
它放宽了输出长度限制,让模型可以进行更深度的思考。
但,token 消耗量大幅增加。
所以, DeepSeek-V3.2-Speciale 的使用场景是:「高难度复杂任务」。
它的实力毋庸置疑。
4 块金牌:IMO 2025、CMO 2025、ICPC 世界总决赛、IOI 2025。
在主流推理基准测试中,它和 Gemini 3 Pro 打得有来有回。
但切记,它不是给你日常使用的。
也正因为 token 消耗大、成本高,DeepSeek 官方强调这个模型目前只供研究使用,不支持工具调用,也没有针对日常对话优化。
并且,仅开放临时 API,有效期到北京时间 12 月 15 日 23:59;价格和 V3.2 一样。
想体验的小可爱抓紧了。
02|DSA 稀疏注意力
V3.2 ( V3.2-Exp 也是)的核心架构叫做「DSA」(DeepSeek Sparse Attention)。
这是一种稀疏注意力机制。
传统注意力有个问题:每生成一个新 token,模型都要回顾所有历史内容。
计算复杂度是平方级别的。
而 DSA 的思路是:不是所有历史信息都同等重要。
它引入了一个「索引器」(Lightning Indexer),快速判断哪些 token 是关键,然后只对这些部分执行精细计算。
最终核心注意力的复杂度大幅降低。
实际效果:
在 128K 上下文长度下, V3.2 的推理成本比 V3.1-Terminus 降低了 50-70%。
03|Agent 能力:思考 + 工具,终于打通了
这是最实用的更新之一。
以前,DeepSeek 的深度思考和工具调用是互斥的。
模型要么思考,要么调用工具,不能同时进行。
V3.2 解决了这个问题。
它现在可以一边思考,一边调用搜索、代码执行工具,然后基于返回的结果继续推理。
整个过程相当丝滑。
为了训练这个能力,DeepSeek 构建了 1800 多个不同环境和 85000 多条复杂指令,用大规模强化学习来训练模型。
效果如何?
开源第一。
和闭源相比有差距,但已经不大了。
比如 Agent 评测 τ²-Bench 准确率 80.3%,和 GPT-5 High 基本持平。
04|怎么用
标准版 V3.2 已经更新到官网、App 和 API,直接用。
V3.2-Speciale 只有 API,且需要单独设置:
base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"
注意:体验截止时间是北京时间 12 月 15 日 23:59。
这两个模型都已在 HuggingFace 和 ModelScope 开源,MIT 协议。
结语
DeepSeek 在技术报告里坦诚地指出了自身的两个不足:token 效率不如 Gemini-3.0-Pro ,部分 Agent 任务还落后于顶级闭源模型。
但反过来看。
一个开源模型,在基准测试上追平 GPT-5 ,在国际竞赛中拿下四枚金牌。
这本身就是一个里程碑。
更重要的是,这些能力现在是开源的。
任何人都可以下载、微调、部署。
所以我说,DeepSeek 每一次发布新模型带来的意义,可能都超过了模型本身。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/66.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论