刚刚DeepSeek更新了终极伏笔R2真要来了

刚刚,DeepSeek 更新了!

具体说来,是把 DeepSeek-V3.1 升级到了 DeepSeek-V3.1-Terminus 。

小火箭shadowrocket

这次更新解决了之前“呼声很高”的一些问题。

比如之前提到的“极”字 Bug。

老版 V3.1 会随机输出“极”字或它的变体,如“極”或“extreme”。

小火箭shadowrocket

此外, V3.1-Terminus 增强了 Agent 智能体能力。

从基准测试来说,几乎所有 Agent 指标都有提升。尤其是 Code Agent(写代码)和 Search Agent(信息搜索)的进步最明显。

BrowseComp 从 30.0 提升到 38.5

SimpleQA 从 93.4 提升到 96.8

SWE Verified 从 66.0 提升到 68.4

SWE-bench Multilingual 从 54.5 提升到 57.8

Terminal-bench 从 31.3 提升到 36.7

BrowseComp 测试模型浏览网页并执行任务的能力,28.3% 的提升相当显著。

Terminal-bench 测试命令行操作能力,17.3% 的提升也还算可观。

一个负责信息收集,一个负责任务执行。

唯一下降的是 BrowseComp-zh(中文搜索),从 49.2 降到 45.0。

有可能是为了解决中英文混杂问题的暂时牺牲,也就是“矫枉过正”了。

小火箭shadowrocket

对于传统的推理和编程测试, V3.1-Terminus 的结果和上一代差不多。

其中,Humanity's Last Exam(人类最后一场测试)提升最大,从 15.9 上升到 21.7。

HLE 测试模型在处理超出训练数据范围问题时的表现,这么大的提升说明 V3.1-Terminus 的泛化能力有明显改善。

遗憾的是,“算法竞赛”测评 Codeforces 的评分从 2091 降到了 2046。

可能是正常波动,也有可能是 DeepSeek 在优化方向上(创新性 vs 稳定性)的取舍。

实际上, V3.1-Terminus 不只是一个新模型这么简单。

从它的命名就能看出些许端倪。

Terminus,中文是“终点”的意思。

而 DeepSeek-V3.1 作为 DeepSeek 目前最新最强的模型,这样的命名只能说明: R2 真的要来了!

其实早在 9 月初,彭博社就曾爆料:DeepSeek 正在开发一款聚焦于 AI Agent 功能的新模型,并计划在今年第四季度发布。

小火箭shadowrocket

这个新模型有多厉害?

据知情人士透露,只需提供简单指令,它就能执行多步骤操作,而且还能基于之前的行动持续学习和改进。

并且,从 8 月份发布 V3.1 开始,DeepSeek 就在不断强调 Agent 能力。

官方当时就说:“ V3.1 通过后训练优化,在工具使用和多步骤代理任务上实现了显著提升,是迈向 Agent 时代的第一步。”

目前, V3.1-Terminus 已在 DeepSeek 客户端(网页、小程序、App)和 API 同步更新。

当然,它也是全面开源的。

Hugging Face 链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

小火箭shadowrocket

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/131.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>