刚刚谷歌更新了但不是Gemini3
谷歌继续发力。
这一次,是 Gemini Live 实时语音模型。
几小时前,谷歌 AI Studio 产品负责人 Logan Kilpatrick 官宣 Gemini Live 模型迎来更新。
Gemini Live 模型代号 gemini-2.5-flash-native-audio-preview-09-2025 ,从名字也可以看出,它是一个基于 2.5 Flash 的端到端原生音频模型。
可以简单类比于 OpenAI 的 GPT-Realtime ,目前 ChatGPT 上的高级语音模式(Advanced Voice Mode)用的就是这个模型。
今天的更新,谷歌主要提升了 Gemini Live 的函数调用(Function Calling)稳定性。
什么是函数调用?
这么说吧,没有函数调用,AI 就只是“聊天机器人”。而有了函数调用,它才能成为真正的“助手”,帮你完成更多实际任务,比如最常见的天气查询、实时搜索。
根据内部测试数据,新版 Gemini Live 模型单次函数调用的成功率提升了 2 倍,在连续调用 5 到 10 个函数的复杂场景下,成功率也提升了 1.5 倍。
其次,语音对话更自然了。
新模型现在能分清什么是背景噪音,什么是真正在跟它对话。
比如你正在和 AI 聊天,突然有人走进来问你个问题。
以前的 Gemini Live 可能会一脸懵逼,要么打断你,要么把背景对话也当成指令。现在它会聪明地暂停对话,忽略背景音,等你处理完再继续。
谷歌官方表示新模型大幅降低了错误打断用户的频率。
这是一个看起来不起眼,但对实际体验影响很大的改进。
和之前一样,谷歌的新模型都会第一时间在 AI Studio 上线,Gemini Live 也不例外。
附上 Gemini Live 的体验链接。
https://ai.studio/live
完全免费,非常推荐。
在 AI Studio 里和 Gemini 聊天有三种模式:语音聊天、开摄像头聊、以及共享屏幕聊。
同时,你也可以在右侧菜单栏里切换不同的音色。
实测英文对话效果很不错。
中文对话虽然也支持,但在流畅性和音准上还是差点意思,不如 ChatGPT 语音模式。
结语
谷歌还预告下周将会为 Gemini Live 推出“思考”功能,类似 Gemini 2.5 Pro ,你可以设置思考预算,让模型在面对复杂问题时先思考,后回答。
Logan 说这只是 Live API “第二阶段”的开始,未来几个月还会有更多更新。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/130.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论