刚刚DeepSeek更新了终极伏笔R2真要来了

小火箭shadowrocket • 2026年1月10日 am8:11 • 小火箭

刚刚，DeepSeek 更新了！

具体说来，是把 DeepSeek-V3.1 升级到了 DeepSeek-V3.1-Terminus 。

这次更新解决了之前“呼声很高”的一些问题。

比如之前提到的“极”字 Bug。

老版 V3.1 会随机输出“极”字或它的变体，如“極”或“extreme”。

此外， V3.1-Terminus 增强了 Agent 智能体能力。

从基准测试来说，几乎所有 Agent 指标都有提升。尤其是 Code Agent（写代码）和 Search Agent（信息搜索）的进步最明显。

BrowseComp 从 30.0 提升到 38.5

SimpleQA 从 93.4 提升到 96.8

SWE Verified 从 66.0 提升到 68.4

SWE-bench Multilingual 从 54.5 提升到 57.8

Terminal-bench 从 31.3 提升到 36.7

BrowseComp 测试模型浏览网页并执行任务的能力，28.3% 的提升相当显著。

Terminal-bench 测试命令行操作能力，17.3% 的提升也还算可观。

一个负责信息收集，一个负责任务执行。

唯一下降的是 BrowseComp-zh（中文搜索），从 49.2 降到 45.0。

有可能是为了解决中英文混杂问题的暂时牺牲，也就是“矫枉过正”了。

对于传统的推理和编程测试， V3.1-Terminus 的结果和上一代差不多。

其中，Humanity's Last Exam（人类最后一场测试）提升最大，从 15.9 上升到 21.7。

HLE 测试模型在处理超出训练数据范围问题时的表现，这么大的提升说明 V3.1-Terminus 的泛化能力有明显改善。

遗憾的是，“算法竞赛”测评 Codeforces 的评分从 2091 降到了 2046。

可能是正常波动，也有可能是 DeepSeek 在优化方向上（创新性 vs 稳定性）的取舍。

实际上， V3.1-Terminus 不只是一个新模型这么简单。

从它的命名就能看出些许端倪。

Terminus，中文是“终点”的意思。

而 DeepSeek-V3.1 作为 DeepSeek 目前最新最强的模型，这样的命名只能说明： R2 真的要来了！

其实早在 9 月初，彭博社就曾爆料：DeepSeek 正在开发一款聚焦于 AI Agent 功能的新模型，并计划在今年第四季度发布。

这个新模型有多厉害？

据知情人士透露，只需提供简单指令，它就能执行多步骤操作，而且还能基于之前的行动持续学习和改进。

并且，从 8 月份发布 V3.1 开始，DeepSeek 就在不断强调 Agent 能力。

官方当时就说：“ V3.1 通过后训练优化，在工具使用和多步骤代理任务上实现了显著提升，是迈向 Agent 时代的第一步。”

目前， V3.1-Terminus 已在 DeepSeek 客户端（网页、小程序、App）和 API 同步更新。

当然，它也是全面开源的。

Hugging Face 链接：https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/131.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

谷歌发布Gemini25ComputerUseGemini3的前菜

< <上一篇

Manus开启裂变模式手把手教你搞定邀请码自由附20枚码

下一篇>>

搜索内容

刚刚DeepSeek更新了终极伏笔R2真要来了

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章