官宣来了DeepSeekV31深夜王炸不是R2胜似R2

8 月 19 日, DeepSeek 悄悄发布了新模型 。

没吆喝、没预热,只有一句低调更新。

小火箭shadowrocket

两天后,官宣终于来了。

新模型自然不是 R2 。

单从名字看, DeepSeek-V3.1 像是一次小版本迭代。

如果你也这么想,那就真的,低估它了。

从技术选型到能力表现, V3.1 处处都透着“下一代模型”的味道。

说一句胜似 R2 ,也不为过。

01|V3.1 亮点,一句话总结

一句话总结:

DeepSeek-V3.1 = 更聪明 + 更高效 + 更能干 。

三句话拆解开来就是:

混合推理:一个模型,两种模式;

更高的推理效率:用更少 token,干更多事,推理效率提高;

更强的 Agent 能力:工具调用、智能体任务处理能力提升。

小火箭shadowrocket

混合推理架构是本次更新的核心。 DeepSeek-V3.1 现在提供两种模式。

模式

接口名称

特点

非思考模式

deepseek-chat

输出快,成本低,适合日常问答

思考模式

deepseek-reasoner

深度推理,思维链,适合复杂任务

一句话区分两者:前者“秒回消息”,后者“认真思考”。

和此前的爆料一致,DeepSeek 网页端和 App 的“深度思考”已由 DeepSeek-V3.1-Think 提供支持。

换句话说, DeepSeek-R1-0528 下岗了。

02|V3.1-Think 到底有多强?

DeepSeek-V3.1 模型隐藏着一个高能选项: V3.1-Think 。

这个模式有点像 Claude 4/4.1,以及此前的 Qwen 模型。

根据官方的说法, V3.1-Think 相较于 R1-0528 ,token 用量下降 20%-50%,性能还持平!

基准测试

R1-0528

V3.1-Think

AIME 2025

87.5

88.4

GPQA

81

80.1

liveCodeBench

73.3

74.8

在基准测试结果基本持平的情况下, V3.1-Think 的 token 消耗量显著降低。

模型的推理能力没降,使用成本却直接打折。

小火箭shadowrocket

此外, V3.1 在非思考模式下的输出长度也得到控制,避免了 V3-0324 的“话唠”问题。更短、更准,才是生产力。

03|智能体能力升级,Agent 真能跑了

这可能是 V3.1 最被低估的部分。

DeepSeek 官方称这次更新是 “迈向 Agent 时代的第一步 our first step toward the agent era”。

官宣中包含两个核心 Agent 测试场景:编程智能体(SWE 修复任务、命令行终端)和搜索智能体(复杂问题检索 + 多步 reasoning)。

在编程智能体测评 SWE-bench 及 Terminal-Bench 中, V3.1 的准确率几乎是成倍提升。

小火箭shadowrocket

而在搜索相关的测评中,尤其是 browsecomp, V3.1 (30%)实现了碾压式的领先( R1-0528 8.9%)。

小火箭shadowrocket

04|模型开源,API 接口升级

和前代模型一样, DeepSeek-V3.1 已全面开源。

Base 模型 + 后训练模型

外扩训练量:新增 840B tokens,比原始 V3 更饱满

模型链接:

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

ModelScope:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

小火箭shadowrocket

划重点: DeepSeek-V3.1 使用 UE8M0 FP8 Scale 的参数精度,这意味着它采用了高效、极致压缩的模型量化策略,追求最低推理成本、接近 FP16 的性能表现。

并且, V3.1 分词器 + chat template 发生变更,不兼容老版本,部署前需查看最新文档。

V3.1 API 新特性包括:

支持 128K 上下文(原 64K)

Function Calling 加入 strict schema 检查

新增 Anthropic API 格式支持(可接 Claude Code)

除此之外, V3.1 API 的价格又又又降低了!

由以前推理、非推理单独定价的模式,改为了统一定价:每百万输入 tokens 4 元,每百万输出 tokens 12 元(在这之前分别是 4 元和 16 元)。

同时,DeepSeek 官宣取消夜间优惠。

新定价将于北京时间 2025 年 9 月 6 日零点起执行。

小火箭shadowrocket

结语

DeepSeek-V3.1 是那种“表面平静,实则杀招”型的版本更新。

它不是 R2 ,但大概率是 R2 的先行版。

某种意义上,它是 DeepSeek 在 Agent Ready 这条路上先迈出的一步。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/161.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>