谷歌新推理模型重磅来袭百万上下文代码执行推理能力飙升
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2025我们继续出发。
几乎不论是什么行业,都有一条通用的“金科玉律”: 越“卷”越强 。
这话放到AI领域,那简直是太对了。
回想2023年,还是OpenAI、ChatGPT“独霸天下”的时代。短短不到两年过去了,国外有“御三家”: Anthropic 的 Claude 3.5 Sonnet , 谷歌 的 Gemini-Exp-1206 、 Gemini-2.0-Flash ,马斯克的 xAI , Meta 的 Llama 3.1 405B ,这些AI模型都足以和 GPT-4 分庭抗礼;国内更不用多说,最近各个AI厂商都在紧锣密鼓的发布自家的新模型,包括: DeepSeek 的 DeepSeek-V3 、 DeepSeek-R1 , MiniMax 的 MiniMax 01 , 阶跃星辰 的 Step R-mini , 面壁智能 的 MiniCPM-o 2.6 , Kimi 的 K 1.5 ,以及字节旗下 豆包 昨天发布的 Doubao-1.5-pro 。
网友直呼:AI界的“春晚”提前来了,好不热闹!
马上要过年了,怎么少得了外国“友人”的祝福。独乐乐不如众乐乐,前方 谷歌 发来贺电。
北美时间1月21日(昨天),就在我们的国产模型 DeepSeek-R1 刷屏海外AI圈的一天后,谷歌不甘示弱的发布了Gemini系列中新一代的 推理模型 : Gemini-2.0-Flash-Thinking-Exp-01-21 。

划重点,新版本的 Gemini 2.0 Flash Thinking 依旧在 谷歌AI Studio 里向所有用户 免费 提供使用,并且支持 API调用 ,当然也是免费的(会有速率RPM限制)。
插播一句,关于如何使用谷歌AI Studio,看这里: 手把手教你免费使用排名第一的谷歌Gemini模型!
这是AI Studio里 Gemini 2.0 Flash Thinking 的模型卡片,可以看到费用(Pricing)都是0,擅长推理、代码( 推理模型的强项 )和多模态理解。速率限制是每账号10 RPM(requests per minute),也就是每分钟可以进行10次对话,每天的上限是1500次,正经人都够了吧!

那么,新版本的 Gemini 2.0 Flash Thinking 有什么特点?
从官方的介绍来看,有这么4点。一是 100万tokens 的上下文窗口。长上下文一直是谷歌Gemini系列模型的强项,目前排名第一的通用模型 Gemini-Exp-1206 上下文长度是200万tokens,你品一品。
二是 代码执行功能 。 Gemini 2.0 Flash Thinking 支持原生代码执行,执行过程是在沙盒里完成的。只需在使用时把 Code execution 工具的开关打开即可。
三是 更长的输出长度 。但谷歌官方并没有明确说明 Gemini 2.0 Flash Thinking 具体的输出长度。从技术文档可以查到,基座模型 Gemini 2.0 Flash 的输出长度为8192 tokens。
四是 减少了模型矛盾 。意思是提高了这个推理模型的可靠性和一致性。(也就是我经常提到的推理模型的“自我怀疑”、“自我否定”)
新模型的发布少不了基准测试对比。
这是 Gemini 2.0 Flash Thinking 的基准测试结果,包括 AIME 2024 (73.3%)和 GPQA Diamond (74.2%)。可以看到这个新模型和前代模型相比 明显的进步 。

以难度非常大的 GPQA Diamond 测试为例, Gemini 2.0 Flash Thinking 的得分(74.2%)应该是介于OpenAI满血版 o1 (75.7%)和 DeepSeek-R1 (71.5%)之间。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/357.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论