谷歌新推理模型重磅来袭百万上下文代码执行推理能力飙升

小火箭shadowrocket • 2026年1月24日 am8:20 • 小火箭

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“ 外挂 ”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于 AI科普， AI工具测评， AI效率提升， AI行业洞察。关注我，AI之路不迷路，2025我们继续出发。

几乎不论是什么行业，都有一条通用的“金科玉律”：越“卷”越强。

这话放到AI领域，那简直是太对了。

回想2023年，还是OpenAI、ChatGPT“独霸天下”的时代。短短不到两年过去了，国外有“御三家”： Anthropic 的 Claude 3.5 Sonnet ，谷歌的 Gemini-Exp-1206 、 Gemini-2.0-Flash ，马斯克的 xAI ， Meta 的 Llama 3.1 405B ，这些AI模型都足以和 GPT-4 分庭抗礼；国内更不用多说，最近各个AI厂商都在紧锣密鼓的发布自家的新模型，包括： DeepSeek 的 DeepSeek-V3 、 DeepSeek-R1 ， MiniMax 的 MiniMax 01 ，阶跃星辰的 Step R-mini ，面壁智能的 MiniCPM-o 2.6 ， Kimi 的 K 1.5 ，以及字节旗下豆包昨天发布的 Doubao-1.5-pro 。

网友直呼：AI界的“春晚”提前来了，好不热闹！

马上要过年了，怎么少得了外国“友人”的祝福。独乐乐不如众乐乐，前方谷歌发来贺电。

北美时间1月21日（昨天），就在我们的国产模型 DeepSeek-R1 刷屏海外AI圈的一天后，谷歌不甘示弱的发布了Gemini系列中新一代的推理模型： Gemini-2.0-Flash-Thinking-Exp-01-21 。

划重点，新版本的 Gemini 2.0 Flash Thinking 依旧在谷歌AI Studio 里向所有用户免费提供使用，并且支持 API调用，当然也是免费的（会有速率RPM限制）。

插播一句，关于如何使用谷歌AI Studio，看这里：手把手教你免费使用排名第一的谷歌Gemini模型！

这是AI Studio里 Gemini 2.0 Flash Thinking 的模型卡片，可以看到费用（Pricing）都是0，擅长推理、代码（推理模型的强项）和多模态理解。速率限制是每账号10 RPM（requests per minute），也就是每分钟可以进行10次对话，每天的上限是1500次，正经人都够了吧！

那么，新版本的 Gemini 2.0 Flash Thinking 有什么特点？

从官方的介绍来看，有这么4点。一是 100万tokens 的上下文窗口。长上下文一直是谷歌Gemini系列模型的强项，目前排名第一的通用模型 Gemini-Exp-1206 上下文长度是200万tokens，你品一品。

二是代码执行功能。 Gemini 2.0 Flash Thinking 支持原生代码执行，执行过程是在沙盒里完成的。只需在使用时把 Code execution 工具的开关打开即可。

三是更长的输出长度。但谷歌官方并没有明确说明 Gemini 2.0 Flash Thinking 具体的输出长度。从技术文档可以查到，基座模型 Gemini 2.0 Flash 的输出长度为8192 tokens。

四是减少了模型矛盾。意思是提高了这个推理模型的可靠性和一致性。（也就是我经常提到的推理模型的“自我怀疑”、“自我否定”）

新模型的发布少不了基准测试对比。

这是 Gemini 2.0 Flash Thinking 的基准测试结果，包括 AIME 2024 （73.3%）和 GPQA Diamond （74.2%）。可以看到这个新模型和前代模型相比明显的进步。

以难度非常大的 GPQA Diamond 测试为例， Gemini 2.0 Flash Thinking 的得分（74.2%）应该是介于OpenAI满血版 o1 （75.7%）和 DeepSeek-R1 （71.5%）之间。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/357.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

OpenAI直播发布第11天ChatGPT桌面客户端升级就这

< <上一篇

全年免费爽用谷歌NanoBananaProLovart直接白给了只剩2天

下一篇>>

搜索内容

谷歌新推理模型重磅来袭百万上下文代码执行推理能力飙升

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章