2025年2月LLM最新排名Grok3逆袭亮眼Claude37Sonnet一鸣惊人

用一个词来形容 AI 大模型领域过去的一个月,非“风云诡谲”莫属。

先是 DeepSeek,成功利用“性价比”优势下沉到了世界的各个角落。然后,凭一己之力带动了整个行业的“疯狂内卷”。

2月初,谷歌发布 Gemini 2.0 系列模型。

小火箭shadowrocket

2月中,马斯克旗下的 xAI 强势发布并免费开放 Grok 3 模型。

小火箭shadowrocket

2月末,沉寂了许久的 Anthropic 正式发布 Claude 3.7 Sonnet ,全球首个混合架构模型。

小火箭shadowrocket

紧接着,2月的最后一天,OpenAI 发布了据说是史上最大、最强的非思考模型 GPT-4.5 。

小火箭shadowrocket

今天,就用一文来记录这风云诡谲而又波澜壮阔的一个月。

本次的 AI 大模型排名参考 2 个常用的排行榜: LiveBench 和 LMSYS 。

其中,LiveBench 更加纯粹和客观,提供无污染的测试数据和客观的评分。LiveBench 的测试题目每月更新,包括最新的数学竞赛、arXiv论文、新闻和数据集,涵盖数学、编码、推理、语言理解等多个方面,避免模型因训练数据污染而获得虚假高分。LiveBench 的特色在于题目有挑战性,即使顶级模型的准确率也普遍低于70%,分数较为可靠。

小火箭shadowrocket

LMSYS 机器人竞技排行榜(Chatbot Arena)则更为主观,是一个基于用户偏好的动态排行榜,由加州大学伯克利分校开发。LMSYS 采用双模型匿名对战模式,用户提出问题并投票选出更好的回答,通过 Elo 评分系统排名,至今已收集超过270万次投票。这种评估方法注重模型在真实场景中的实用性,而非单纯的知识或智能测试。

小火箭shadowrocket

接下来上2025年2月最新的 AI 大模型排名。

LiveBench

LiveBench 的特点是把非思考模型(如 GPT-4o 、 DeepSeek-V3 )和推理模型(如 o1 、 DeepSeek-R1 )放在一起比较,不搞特殊。

最新的排名中, Claude 3.7 Sonnet-Thinking 模式超越 o3-mini-high 、 o1 、 Grok 3-Thinking 以及 DeepSeek-R1 荣登榜首。

在非思考模型中,参数量最大的 GPT-4.5 当仁不让地夺得了第一名,甚至超过了谷歌的推理模型 Gemini 2.0 Flash Thinking ;接下来是 Claude 3.7 Sonnet (非思考模式), Gemini 2.0 Pro 。

值得一提的是,阿里通义团队过年期间新推出的 Qwen 2.5-Max 模型赫然榜上有名,超过了早几个月发布的 DeepSeek-V3 。

小火箭shadowrocket

LMSYS

LMSYS 排行榜共有 2 类排名: 综合排名 和 StyleCtrl 排名 。综合排名直接按照模型所获得的综合分数来排;而 StyleCtrl(Style Control)排名则是在综合分数的基础上加入了风格控制,通过调整响应长度和 Markdown 格式使用等变量的影响,试图剔除这些非核心因素对排名的干扰,从而更纯粹地反映模型的实际能力。

我个人更倾向于查看 LMSYS 的 StyleCtrl 排名。

Upper-bound(UB)综合排名

在最新的综合排名里, GPT-4.5 挺惨的,头名的宝座屁股还没有坐热,就被 Grok 3 挤下去了。 Grok 3 以1412的高分位列第一名;接着是 GPT-4.5 、 Gemini 2.0 Pro 、 GPT-4o 和 DeepSeek-R1 。

你会发现,无论是第一名的 Grok 3 还是第二名的 GPT-4.5 ,它们有一个共同特点: 模型“情商”高 。LMSYS 里的分数本就是真实用户打出来的,“情商”高的模型得分高也是理所当然。

小火箭shadowrocket

StyleCtrl(Style Control)排名

而加入了风格控制的考虑,即剔除了回答长度、回答的格式等影响因素后,排名又是另一番光景了。

第一名换成了 GPT-4.5 , Grok 3 跌到了第三名。另外值得一提的是, Claude 3.7 Sonnet 在 StyleCtrl 排行榜里的排名显著上升,排到了第五名。

DeepSeek-R1 则排到了第三名。考虑到 DeepSeek-R1 “白菜价”般的 API 价格,这模型质量和性价比简直是要拉满了。

小火箭shadowrocket

最后,附上 LiveBench 和 LMSYS 排行榜地址,感兴趣的小伙伴可以查看细节,比如各个模型的分类排名。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/319.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>