国产AI王炸新版DeepSeekV3惊艳亮相数学94碾压Claude剑指GPT45

DeepSeek 刚刚发布的新模型 DeepSeek-V3-0324 正在国内及海外社区掀起一股新的浪潮。

前情提要: DeepSeek 新模型上线:6850亿参数的 DeepSeek-V3 再进化!

继昨天在 Hugging Face 社区上传新模型文件后,DeepSeek 官方也添加了这个模型的详情卡片(Model Card)。

Word文档图片

同时,DeepSeek 官方也确认了已经把新模型在 官网 及 开放平台 API 同步上线。

Word文档图片

而在 DeepSeek 开放平台的 “更新日志” 中,也添加了这次更新的详情。

那么, DeepSeek-V3-0324 和前代 DeepSeek-V3 相比,到底更新了什么?强在哪里?

先来看 DeepSeek 官方放出的基准测试结果。

注意, DeepSeek-V3-0324 是一个不会思考的通用模型,所以官方也都挑选的是最顶级的 “非思考” 通用模型,如 OpenAI 的 GPT-4.5 、Anthropic 的 Claude 3.7 Sonnet 、以及阿里千问的 Qwen Max (全名应为 Qwen2.5-Max )。

先说结论: DeepSeek-V3-0324 很强,绝对的 TOP 水准 。

Word文档图片

MMLU-Pro,大学水平知识测验, DeepSeek-V3-0324 以 81.2% 的准确率排在第二,仅次于参数量史无前例大的 GPT-4.5 。和 Claude 3.7 Sonnet 则几乎持平。

GPQA-Diamond,极具挑战的高难度问答, DeepSeek-V3-0324 得分 68.4%,比前一代模型增长了约 9%,依旧仅次于 GPT-4.5 的 71.4%。这个基准测试对于这些 “非思考” 模型来说,很难。

MATH-500,专注于数学领域的基准测试, DeepSeek-V3-0324 准确率 94%,全场最高。

AIME 2024,2024年美国数学邀请赛,竞赛级别的数学题目, DeepSeek-V3-0324 综合得分 59.4%,以绝对实力排名第一。第二名为前代 DeepSeek-V3 ,准确率仅有 39.6%。

LiveCodeBench,编程能力测试, DeepSeek-V3-0324 同样是第一名,49.2%。超越了 GPT-4.5 和 Claude 3.7 Sonnet 。

同时,DeepSeek 官方的更新日志中也详细描述了 DeepSeek-V3-0324 的优化项。

Word文档图片

简单总结。

首先是 推理能力 的增强。这一点在上面基准测试结果的分析中已经体现的淋漓尽致。

其次是已经在网上引起热议的 “ 编程能力 ”,尤其是 前端开发 。这一点其实和 Claude 3.7 Sonnet 非常相似。主要体现在代码准确率的提升,以及模型本身审美的提升。另外还有一点值得一提,新模型的输出长度比之前要好不少(以官网来看)。

接着是 中文写作能力 。官方表示 DeepSeek-V3-0324 对中文写作的风格和内容进行了优化,风格和 DeepSeek-R1 对齐,内容主要是中长篇写作质量的提升。

功能增强方面有三点: 多轮交互改写能力提升 ,大白话就是上下文把握的更好了; 翻译质量和书信类写作的优化 ; 中文搜索能力的优化 。

这里不得不给 DeepSeek 点个赞,优化项目很多都是针对中文任务的,中国人自己的 AI!

最后就是我在昨天的文章里提到的 bug 修复 。本次更新修复了之前 Function Calling 重复调用的问题,主要是针对开发者的。

接下来附上我针对 DeepSeek-V3-0324 的一个测试。

下面的测试都是在 DeepSeek 官网进行的。

这是近期非常流行的一个前端开发测试 —— 天气卡片 。完整提示词非原创,来自于论坛某位大佬。

Word文档图片

你是一位就职于苹果公司的顶级前端工程师。请创建一个包含CSS和JavaScript的HTML文件,用于生成动画天气卡片。卡片需要以不同动画效果直观展示以下天气状况:

风力(如:飘动的云朵、摇曳的树木或风线)

降雨(如:下落的雨滴、形成的水洼)

晴天(如:闪耀的光线、明亮的背景)

下雪(如:飘落的雪花、积雪效果)

所有天气卡片需要并排显示,背景采用深色设计。所有代码都需包含在这个单一文件中。JavaScript部分需包含切换不同天气状态的功能(例如通过函数或按钮组),以演示每种天气的动画效果。

将前端显示效果优化得更精致流畅,打造出价值20元/月的精品天气应用既视感。

DeepSeek-V3-0324 的表现除了惊艳,还是惊艳。生成的天气卡片总代码长度 625 行,总输出时长大约 3 分钟,能明显感受到推理能力和代码能力的提升。

先来看最终效果。

Word文档图片

DeepSeek 的整段输出实在太长,我这里截取部分回答以做展示。

Word文档图片

另外值得一提的是,DeepSeek 黑色代码框的右下角有一个 运行 HTML 的按钮,支持一键运行 HTML 代码了!

在 DeepSeek 官网运行后的效果是这样的(动态效果,仅截图做展示)。

Word文档图片

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/297.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>