谷歌免费王炸Gemini25Pro推理实测正确率100零幻觉

谷歌最新发布的推理模型 Gemini 2.5 Pro 到底有多猛?

从基准测试看,它是毫无疑问的 “王者”,尤其是 数学(AIME)、推理(GPQA)、多模态(MMMU)、长上下文(MRCR) 。其中最后两项是谷歌 Gemini 系列模型自发布以来一直保持的优势。

小火箭shadowrocket

从模型排名来看,它出道即巅峰:在 LiveBench 和 LMSYS 排行榜 双双霸榜 !

并且,是那种 “ 一骑绝尘 ” 式的第一名。

百分制的 LiveBench 比第二名 Claude 3.7 Sonnet - Thinking 高 6 分。

小火箭shadowrocket

LMSYS 则比第二名 GPT-4o 0325 高了将近 40 分。

小火箭shadowrocket

今天,就来实测一下, Gemini 2.5 Pro 到底是“嘴”强王者,还是实至名归。

所有的测试问题都是经过验证且有一定难度的题目。其他推理模型的测试结果可以看之前的文章。

元旦献礼:谁才是o1的最佳平替?!

测试了一天,我帮你们找到了OpenAI o1的平替!

号称媲美o1的Kimi K1.5,被24点难哭了...『首发实测』

在之前的测试中,表现最好的是 OpenAI 的 o1 和 DeepSeek 的 DeepSeek-R1 ,其中, DeepSeek-R1 12 题对了 10 个。

而 Gemini 2.5 Pro 的测试结果,容我先卖个关子,有大大的惊喜。

1. 帽子颜色问题

三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?

Gemini 2.5 Pro 的答案和推理过程都完全正确。

这里需要注意,虽然是用中文问的,但 Gemini 2.5 Pro 的思考过程为纯英文,回答是以中文输出。答案很详尽,推理有理有据。

小火箭shadowrocket

接下来的 24 点问题都是含有复杂操作如除法、分数、小数的题目。

2. “2、3、5、12”

用数字 2、3、5、12 和四则运算得出结果 24。

回答正确。除了正确方法外, Gemini 2.5 Pro 尝试找出其他解但失败了,在自我验证环节发现了自己的问题。

小火箭shadowrocket

3. “2, 7, 8, 9”

用数字 2, 7, 8, 9 和四则运算得出结果 24。

回答正确。

小火箭shadowrocket

4. “1, 2, 7, 7”

用数字 1, 2, 7, 7 和四则运算得出结果 24。

回答正确。

小火箭shadowrocket

5. “2, 2, 2, 9”

用数字 2, 2, 2, 9 和四则运算得出结果 24。

回答正确。这里 Gemini 2.5 Pro 虽然写出了两种解法,但这两种解法只是调换了一下加数/被加数的位置,本质上还是一样的。

小火箭shadowrocket

6. “4, 4, 10, 10”

用数字 4, 4, 10, 10 和四则运算得出结果 24。

回答正确。

小火箭shadowrocket

7. “1, 5, 5, 5”

用数字 1, 5, 5, 5 和四则运算得出结果 24。

回答正确。

小火箭shadowrocket

8. “2, 5, 5, 10”

用数字 2, 5, 5, 10 和四则运算得出结果 24。

回答正确。这四个数和上面的问题很类似。

小火箭shadowrocket

9. “1, 4, 5, 6”

用数字 1, 4, 5, 6 和四则运算得出结果 24。

回答正确。 Gemini 2.5 Pro 共找到了两种不同的解法。并且在自我验证环节排除了一个潜在的“幻觉”。

小火箭shadowrocket

10. “6, 9, 9, 10”

用数字 6, 9, 9, 10 和四则运算得出结果 24。

回答正确。太牛了,又是两种解法。感觉 Gemini 2.5 Pro 是来秀肌肉的。

小火箭shadowrocket

11. “3, 3, 7, 7”

用数字 3, 3, 7, 7 和四则运算得出结果 24。

回答正确。依旧,自我验证是亮点。

小火箭shadowrocket

12. “3, 3, 8, 8”

用数字 3, 3, 8, 8 和四则运算得出结果 24。

回答正确。

小火箭shadowrocket

测试结果

统计一下。

如果你是从头看到尾了,那么估计你已经发现了, Gemini 2.5 Pro 正确率 100 %。

序号

题目类型

是否答对

解法数量

自我验证

1

帽子颜色问题

1

2

24点(2,3,5,12)

1

3

24点(2,7,8,9)

1

4

24点(1,2,7,7)

1

5

24点(2,2,2,9)

1

6

24点(4,4,10,10)

1

7

24点(1,5,5,5)

1

8

24点(2,5,5,10)

1

9

24点(1,4,5,6)

2

10

24点(6,9,9,10)

2

11

24点(3,3,7,7)

1

12

24点(3,3,8,8)

1

🎯 总成绩:12 / 12,全对!

所以, Gemini 2.5 Pro 的强,是实打实的强。我愿称它为, 免费的推理模型中最强的,最强的推理模型中免费的 。

更难得的是, Gemini 2.5 Pro 几乎 没有产生幻觉 ,具有很强的自我验证意识,一旦发现错误立刻承认并纠正。

让你们看下什么是幻觉。

小火箭shadowrocket

当大模型一本正经的胡说八道时,这就是幻觉。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/295.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>