刚刚DeepSeek更新了终极伏笔R2真要来了
刚刚,DeepSeek 更新了!
具体说来,是把 DeepSeek-V3.1 升级到了 DeepSeek-V3.1-Terminus 。
这次更新解决了之前“呼声很高”的一些问题。
比如之前提到的“极”字 Bug。
老版 V3.1 会随机输出“极”字或它的变体,如“極”或“extreme”。
此外, V3.1-Terminus 增强了 Agent 智能体能力。
从基准测试来说,几乎所有 Agent 指标都有提升。尤其是 Code Agent(写代码)和 Search Agent(信息搜索)的进步最明显。
BrowseComp 从 30.0 提升到 38.5
SimpleQA 从 93.4 提升到 96.8
SWE Verified 从 66.0 提升到 68.4
SWE-bench Multilingual 从 54.5 提升到 57.8
Terminal-bench 从 31.3 提升到 36.7
BrowseComp 测试模型浏览网页并执行任务的能力,28.3% 的提升相当显著。
Terminal-bench 测试命令行操作能力,17.3% 的提升也还算可观。
一个负责信息收集,一个负责任务执行。
唯一下降的是 BrowseComp-zh(中文搜索),从 49.2 降到 45.0。
有可能是为了解决中英文混杂问题的暂时牺牲,也就是“矫枉过正”了。
对于传统的推理和编程测试, V3.1-Terminus 的结果和上一代差不多。
其中,Humanity's Last Exam(人类最后一场测试)提升最大,从 15.9 上升到 21.7。
HLE 测试模型在处理超出训练数据范围问题时的表现,这么大的提升说明 V3.1-Terminus 的泛化能力有明显改善。
遗憾的是,“算法竞赛”测评 Codeforces 的评分从 2091 降到了 2046。
可能是正常波动,也有可能是 DeepSeek 在优化方向上(创新性 vs 稳定性)的取舍。
实际上, V3.1-Terminus 不只是一个新模型这么简单。
从它的命名就能看出些许端倪。
Terminus,中文是“终点”的意思。
而 DeepSeek-V3.1 作为 DeepSeek 目前最新最强的模型,这样的命名只能说明: R2 真的要来了!
其实早在 9 月初,彭博社就曾爆料:DeepSeek 正在开发一款聚焦于 AI Agent 功能的新模型,并计划在今年第四季度发布。
这个新模型有多厉害?
据知情人士透露,只需提供简单指令,它就能执行多步骤操作,而且还能基于之前的行动持续学习和改进。
并且,从 8 月份发布 V3.1 开始,DeepSeek 就在不断强调 Agent 能力。
官方当时就说:“ V3.1 通过后训练优化,在工具使用和多步骤代理任务上实现了显著提升,是迈向 Agent 时代的第一步。”
目前, V3.1-Terminus 已在 DeepSeek 客户端(网页、小程序、App)和 API 同步更新。
当然,它也是全面开源的。
Hugging Face 链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/131.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论