2024年12月LLM最新排名o1Gemini双雄争霸DeepSeek黑马杀入

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2025我们继续出发。

在刚刚过去的2024年12月,AI大模型领域发生了3件大事。

小火箭shadowrocket

第一, OpenAI 于12月5日发布了满血版 o1 ,即 o1-preview 的正式版本。

第二, 谷歌Gemini 陆续发布了3个重磅模型,每一个都很有意义。首先是12月6日发布的通用基座模型 Gemini-Exp-1206 ,它和 GPT-4o , Claude 3.5 Sonnet 是一类(这个模型的发布时间也很有意思,就在满血版 o1 发布一天后,同时也是Gemini模型一周年纪念日);接着是12月11日发布的 Gemini-2.0-Flash-Exp ,这是Gemini 2.0系列的第一个模型,为小参数模型;最后是12月19日发布了谷歌旗下的首个推理模型 Gemini-2.0-Flash-Thinking ,该模型和 o1 是一类。

第三,国内AI初创公司 DeepSeek (中文名: 深度求索 )于12月26日发布了 DeepSeek V3 ,为 DeepSeek V2.5 的升级版本,同样是一个通用模型。

需要注意的是,这里我们聚焦于文本模型,文生视频模型如Sora暂不做讨论。

LMSYS聊天机器人竞技场排行榜

这里附上 去除了回答风格因素 的榜单,即勾选 Style Control ,这个排名更能直接体现模型本身的能力,因为排除了某些可能影响得分的混淆因素,如回答长度、Markdown格式等。

小火箭shadowrocket

LiveBench排行榜

小火箭shadowrocket

1. OpenAI o1

如果不考虑通用模型和推理模型的差异,把所有模型放到一起对比,OpenAI的 o1 自然是当之无愧的第一名。LMSYS竞技场 o1 综合评分1328分,由于LMSYS刚刚添加该模型不久,所以投票数还不多,95%置信区间也偏高;LiveBench排行榜 o1 综合得分75.67分,在这两个排行榜 o1 均为第一名。

2. 谷歌 Gemini-Exp-1206

用“出道即巅峰”形容 Gemini-Exp-1206 是一点问题也没有的,LMSYS和LiveBench两个排行榜均为第二名,综合分数分别为1321和64.09分。准确来说,LMSYS竞技场中, Gemini-Exp-1206 是和 o1 并列第一,仅相差7分。

3. 谷歌 Gemini-2.0-Flash-Thinking

谷歌的首个推理模型,基于 Gemini-2.0-Flash-Thinking 训练的,效果没有 o1 好在情理之中,但排名一点不含糊,在LMSYS和LiveBench两个排行榜均占据第三名的好成绩,综合得分1309和61.83分。

4. 谷歌 Gemini-2.0-Flash

谷歌Gemini 2.0系列的首发模型 Gemini-2.0-Flash-Exp ,对标的其实应该是小参数模型那一类,如 GPT-4o mini 和 Claude 3.5 Haiku ,其表现也是惊人的好,在LMSYS竞技场得分1296分,位于第4名;在LiveBench排行榜则以59.26的综合分数排在第5名。

谷歌这一波真是凭实力赚口碑。排名这么高的模型,还都免费开放使用,一个字,绝。

5. DeepSeek V3

DeepSeek近期可谓是大火,赚足了眼球。但总得来说, DeepSeek V3 在排行榜的表现,对得起这样的关注度。LMSYS竞技场得分1274分,和满血版 o1 一样,因为刚刚收录,投票数不足,导致置信区间偏大,这个分数可能还没有反应其真实水平,目前位列第8名,也是前10名里唯一的一个国产大模型。LiveBench排行榜综合得分60.45分,排在 Gemini-2.0-Flash-Exp 的前面,第4名。

值得一提的是,我们需要对一路高歌的声音保持警惕,比如“ DeepSeek V3 在编程方面已经超越了 Claude 3.5 Sonnet ”这种言论,从编程的单项榜单也可以看出, DeepSeek V3 确实表现不俗,但要说超过 Claude 3.5 Sonnet ,还并没有,只能说“媲美”。再考虑到它的API定价,就 性价比 这一点已经强于很多其他模型了。

附上一张LiveBench排行榜“Coding”专项的排名截图。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/379.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>