卷疯了DeepSeek国庆献礼V32刚刚发布稀疏注意力性价比之王
就在小可爱们准备国庆假期的时候,DeepSeek 又双叒叕上新了!
这一次,是 DeepSeek-V3.2-Exp 。
太卷了,上个版本 V3.1-Terminus 才发布多久?满打满算才一周。
并且,这次更新还真不能算是简单的版本迭代。
而是,意义大于模型本身。
最吸引眼球的是新模型的定价: V3.2-Exp API 价格直降超 50%,输出更是狂降 75%,百万输出 tokens 现在只要 3 块钱,人民币。
这是什么概念?
对比一波你就知道了。
OpenAI 的 GPT-5 每百万输入/输出 tokens 价格是 1.25/10 美元,约 9/71 元人民币;几小时前 Anthropic 刚刚发布的 Claude Sonnet 4.5 ,API 价格则是 3/15 美元,约 21/107 元人民币!
DeepSeek 已经不是在“卷”了,这是直接把桌子给掀了。
价格只是表象,真正值得一提的是 V3.2-Exp 背后的技术架构。
V3.2-Exp 的核心创新是引入了 DeepSeek Sparse Attention(DSA,稀疏注意力)机制。
传统的 Transformer 架构在处理长文本时,每个词都要和其他所有词进行注意力计算,计算量是平方级增长的。
而稀疏注意力则像是让模型学会“智能筛选”,只计算真正相关的部分,从而大幅减少计算量。
今年 8 月,DeepSeek 就是凭借这篇题为《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》的稀疏注意力论文斩获了 ACL 2025 最佳论文奖。
模型性能方面, V3.2-Exp 和上周发布的 V3.1-Terminus 基本持平。
有些基准测试甚至有小幅提升,比如编程测评 Codeforces 从 2046 分提升到了 2121 分。
当然,也不是完全没有代价。
既然叫稀疏注意力,那大概率会遗漏一些细节信息。在一些需要全局信息交互的任务上,比如人类最后一场测试 Humanity's Last Exam 和数学竞赛 HMMT 2025,新模型的分数均有所下降。
目前,DeepSeek 网页端、小程序、手机 App 都已同步更新到了 V3.2-Exp 。
感兴趣的小可爱可以体验起来了。
V3.2-Exp 照例是全面开源的,同时这次 DeepSeek 还发布了相关的技术报告。
HuggingFace :https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
ModelScope :https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
技术报告 :https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
并且,DeepSeek 还很实诚地提醒用户 V3.2-Exp 目前只是实验版本,还需要在更多真实场景中测试。
写在最后
性能持平,价格减半。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/124.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论