新晋AI国产之光这下实至名归了

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2024我们一起变强。

国产AI领域中,DeepSeek是比较独特的一个存在。

DeepSeek对于用户来说,可能有两个极端。不关注国内AI领域的小伙伴,可能听都没听说过它,毕竟不像Kimi和豆包铺天盖地打广告;但用过它的,可能对它的表现赞不绝口,推崇备至,毕竟它的基座模型,很强!

DeepSeek,严格意义上来说,是一家专注于研究 AI模型 底层技术的公司,以至于它在宣传方面几乎没有任何广告,全靠口口相传,竟然效果还不错,甚至在海外都有了一众粉丝群体,被称作“来自东方的神秘力量”;在产品上DeepSeek更是显得非常单薄,甚至到了简陋的地步,DeepSeek网页版除了一个logo和输入框,什么都没有。

小火箭shadowrocket

然而,DeepSeek在模型方面颇有建树。它打响了国内大模型价格战的第一枪,甚至因此被网友称为“AI界的拼多多”。它陆续发布了通用模型 DeepSeek V2 , DeepSeek V2.5 ,以及昨天刚刚发布,今天这篇文章的主角: DeepSeek V3 。除此之外,DeepSeek还发布了一系列视觉模型和一个推理模型 DeepSeek-R1-Lite ,这个模型严格意义来说是国内首个对标 o1 的推理模型,我在《 国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 》这篇文章中有过详细介绍和测评。

DeepSeek V3

今天要说的是昨天刚刚 正式发布并开源 的通用模型 DeepSeek V3 。

先来看看各项技术指标。

DeepSeek-V3 采用了自主研发的MoE(Mixture-of-Experts)架构,模型参数高达671B,激活参数为37B(即在实际推理过程中,每个token仅激活其中的37B参数,在保证性能的同时提升推理效率)。这个参数量是什么概念?在此之前,开源模型中的王者 Llama 3.1 的最大参数为405B。 DeepSeek-V3 的671B比 Llama 3.1 多了一半的参数。

在训练过程中, DeepSeek-V3 使用了 FP8 混合精度训练,并首次在如此超大规模的模型上验证了 FP8 训练的可行性和有效性。通过算法、框架和硬件层面的协同设计,克服了跨节点 MoE 训练中的通信瓶颈,实现了近乎完全的计算与通信重叠,从而提高训练效率的同时,大幅降低了训练成本。最终, DeepSeek-V3 在14.8万亿tokens的数据集上完成了预训练,而仅消耗266万 H800 GPU小时。

再来看 DeepSeek-V3 在基准测试中的表现。

这个通用模型的表现只能说是:相当厉害! DeepSeek-V3 成功吊打了 Qwen2.5-72B 和 Llama-3.1-405B 这两个开源模型;闭源模型上,和 GPT-4o 以及 Claude-3.5-Sonnet 打得有来有回。但需要指出的上,此处的 GPT-4o 指的是0513版本,并不是最新版本。

小火箭shadowrocket

代码领域则是DeepSeek系列模型一直以来的强项, DeepSeek-V3 的代码能力更是几乎可以和也是以代码能力著称的 Claude-3.5-Sonnet 相媲美。

小火箭shadowrocket

另外值得一提的是 DeepSeek-V3 的响应速度。DeepSeek之前的模型一直因为“响应速度”被诟病,而根据DeepSeek官方的说法, DeepSeek-V3 的生成速度从20TPS大幅提高至60TPS,相比较前代模型2.5实现了3倍提升。

如何使用DeepSeek V3

DeepSeek官网 :https://chat.deepseek.com/

DeepSeek开发者平台 :https://platform.deepseek.com/

DeepSeek V3 GitHub仓库 :https://github.com/deepseek-ai/DeepSeek-V3

DeepSeek V3 抱抱脸链接 :https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/385.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>