谷歌悄悄发了篇技术博客藏着Gemini3真正的杀手锏

在一个不起眼的角落,谷歌发布了一篇技术博客。

关于 Gemini 3 Pro 的「多模态」能力。

借用谷歌 AI Studio 产品负责人 Logan Kilpatrick 的一句话总结:

「 Gemini 3 Pro 在大多数多模态基准测试和案例中继续保持 SOTA。」

小火箭shadowrocket

SOTA,State of the art,表示最强、遥遥领先。

Logan 不是在吹牛。

01|先看结果

直接上数据。

MMMU-Pro 测试,衡量模型的多模态理解和推理能力。

Gemini 3 Pro 拿到了 81%。

作为对比, GPT-5.1 和 Claude Opus 4.5 分别是 76% 和 72%。

CharXiv Reasoning,测试的是科学图表的理解和推理能力。

Gemini 3 Pro 得分 81.4%,超过了 GPT-5.1 的 69.5%,也超过了人类基准的 80.5%。

小火箭shadowrocket

真正拉开差距的是空间理解。

Point-Bench,测试空间定位能力, Gemini 3 Pro 准确率 85.5%,而 GPT-5.1 只有 41.8%。

RefSpatial,测试多步空间推理, Gemini 3 Pro 是 65.5%, GPT-5.1 是 28.2%。

另外一个是屏幕理解,差距大的有点离谱。

ScreenSpot Pro,测试模型在软件中定位 GUI 元素的能力。

Gemini 3 Pro 达到 72.7%,而上一代 Gemini 2.5 Pro 是 11.4%, GPT-5.1 仅有 3.5%。

直接碾压了。

02|四大能力

文档理解,先说这个。

一份扫描件,如果是那种字迹潦草、表格歪斜、公式模糊的,用传统 OCR 技术识别,大概率不会很准确。

Gemini 3 Pro 就是来解决这个问题的。

来自谷歌官方的一个案例。

一份 18 世纪商人的手写账簿,泛黄的纸张、潦草的字迹、歪歪扭扭的表格线。

投喂给 Gemini 3 Pro ,直接输出一张完美的结构化表格。

小火箭shadowrocket

再比如手写的数学公式,直接转换成精准的 LaTeX 代码。

小火箭shadowrocket

还有空间理解。

这个能力听起来抽象,举个例子你就懂了。

你指着一堆零件问 AI:“螺丝刀在哪?”

以前的模型会说:“在桌子右边。”

Gemini 3 Pro 会说:“坐标 (324, 156)。”

像素级精确定位。

对机器人和 AR 设备来说,算是质的飞跃了。

另一个重要的能力是屏幕理解。

这是提升最大的部分。

AI 帮你操作电脑,这个能力是核心。

比如让 Gemini 3 Pro 在 Excel 里自动操作。

精确点击单元格、移动光标、输入数据、创建数据透视表,整个过程相当丝滑。

还记得前面的基准测试数据吗?

ScreenSpot Pro 测试, Gemini 3 Pro 准确率高达 72.7%。

小火箭shadowrocket

视频理解一直是 Gemini 的强项。

并且,很久以来,只有 Gemini 独一份能直接解读视频输入。

Gemini 3 Pro 支持 10 FPS 的高帧率分析,是默认速度的 10 倍。

这意味着,高尔夫挥杆、网球发球这类快速动作,它能逐帧分析,告诉你哪个瞬间重心不对、哪个角度发力有问题。

它不只是识别“发生了什么”,而是能理解“为什么会发生”。

谷歌官方称它为:因果推理。

AI 终于会“看懂”视频了。

03|一个细节

对于 Gemini 3 Pro API,谷歌这次开放了一个新参数 media_resolution 。

开发者可以在高保真度和低成本之间灵活选择。

不是所有任务都需要最高精度。

高分辨率模式适合复杂 OCR 和文档处理;低分辨率模式适合简单场景识别和长上下文任务。

AI Studio 里就能玩,在这里。

小火箭shadowrocket

结语

实际上,多模态一直是 Gemini 系列模型的核心卖点。

从 Gemini 1.0 开始,谷歌就在强调“原生多模态”的架构优势。

这次的 Gemini 3 Pro ,算是把这个技术优势拉到了一个新高度。

具体好不好用,你试试。

依旧推荐谷歌 AI Studio。

免费,模型满血,参数齐全,可玩性很高。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/57.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>