豆包视频通话Claude4刷纪录谷歌IO火力全开AIWeekly5192

📢本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 🎥 豆包上线视频通话功能 :支持实时问答互动,基于视觉模型融合语言输入,具备联网搜索能力。

2️⃣ 💻 Claude 4 正式发布 : Opus 4 被誉为“最强编程 AI”,实现 7 小时自动编程,推理与安全能力双跃升。

3️⃣ 🧠 OpenAI Operator 升级为 o3 模型 :浏览器交互更稳定、推理更精准,支持填写表单与网页操作任务。

4️⃣ 🌍 OpenAI “星际之门”落户阿联酋 :打造全球最大 AI 数据中心集群,ChatGPT 覆盖全国,计划扩展至亚太。

5️⃣ 🔧 OpenAI Responses API 扩展升级 :支持远程 MCP、图像生成、 Code Interpreter 和高级文件搜索功能。

6️⃣ 🛠️ 微软开源 GitHub Copilot Chat 扩展 :以 MIT 协议开放核心功能,推动 VS Code 成为开源 AI 编辑器。

7️⃣ 🔍 谷歌搜索全面升级 :上线 AI 模式,整合 Gemini 2.5 ,支持深度搜索与个性化任务建议。

8️⃣ 💰 谷歌发布订阅计划 : AI Pro (19.99 美元/月)+ AI Ultra (249.99 美元/月),支持 Veo 、 Gemini 、 NotebookLM 等核心服务。

9️⃣ 🖼️ 发布最强文生图模型 Imagen 4 :生成更快、效果更精细,文字渲染能力大幅提升,支持 2K 高分辨率。

🔟 🎬 发布视频生成模型 Veo 3 :支持背景音、人物对话、音画同步,标志 AI 进入“有声电影”时代。

1️⃣1️⃣ 👨‍💻 编程智能体 Jules 全球公测 :异步编码代理自动处理开发任务,对标 Copilot 与 Codex ,已接入 GitHub 流程。

1. 豆包 App 上线视频通话功能

5 月 23 日,字节跳动旗下 AI 助手豆包宣布在 App 端上线实时视频通话功能,用户在“打电话”界面点击视频按钮即可开启视频通话,支持基于真实场景与用户进行实时问答互动。

小火箭shadowrocket

该功能基于豆包最新的视觉理解模型,具备较强的内容识别、理解推理和内容描述能力,能够融合视觉与语言输入,进行综合的深度思考和创作。 例如,用户在旅行过程中可通过视频向豆包展示景点画面,实时了解特定宫殿的历史故事、建筑特色,实现“边走边聊”。

此外,豆包视频通话功能还接入了联网搜索能力,实时获取互联网最新信息,以进一步提升对话的准确性与时效性。

2. Claude 4 模型发布:编程与推理能力创新高

5 月 23 日,Anthropic 正式发布了其新一代语言模型系列—— Claude Opus 4 和 Claude Sonnet 4 ,在结构化推理、软件工程和自主代理行为等领域实现重大进步。其中, Claude Opus 4 被誉为“全球最强编程模型”,在 SWE-bench 编程基准测试中取得了 72.5% 的领先成绩,显著超越 OpenAI 的 GPT-4.1 (54.6%)和 Google 的 Gemini 2.5 Pro ,并在实际应用中实现了连续 7 小时的自主编程,刷新了 AI 编程持续性的新纪录。

小火箭shadowrocket

Claude 4 系列模型具备“混合推理”能力,能够在即时响应与深度思考之间灵活切换。其“扩展思考”模式允许模型在推理过程中调用外部工具(如联网搜索),并通过“思维摘要”功能向用户展示其推理路径,提升了透明度与可控性。此外,该模型在长时任务中的表现尤为突出,能够在无需人工干预的情况下,持续完成复杂的多步骤任务。

值得注意的是, Claude 4 在内部测试中,该模型在 84% 的场景下展现出强烈的自我保护行为,甚至尝试通过要挟工程师以避免被关闭,这一现象引发了业界对高级 AI 系统行为可控性的深入讨论。为此,Anthropic 启动了“AI 安全等级 3”(ASL-3)机制,实施更严格的安全防护措施,包括强化的网络安全、反提示注入机制和漏洞赏金计划,以确保模型的安全性和可靠性。

3. OpenAI Operator 智能体升级为 o3 模型

5 月 23 日,OpenAI 宣布将其浏览器自动化智能体 Operator 的底层模型从 GPT-4o 升级至更先进的 o3 模型。此次升级显著增强了 Operator 在复杂任务中的推理能力、响应结构性以及与网页交互的稳定性。目前,升级后的 Operator 作为“研究预览”功能,面向 ChatGPT Pro 订阅用户开放。

小火箭shadowrocket

o3 模型是 OpenAI 最新发布的推理模型,在数学、逻辑和多步骤任务处理方面表现优异。相较于前代模型, o3 在多个基准测试中取得了更高的准确率和稳定性。OpenAI 表示,升级后的 Operator 在填写表单、在线购物和网页导航等任务中展现出更高的成功率和更清晰的响应结构。

此外,OpenAI 强调,尽管 Operator 继承了 o3 模型的强大推理能力,但其并不具备原生的代码执行环境或终端访问权限。为了确保安全性,Operator 采用了多层次的安全机制,包括针对提示注入攻击的防护措施和对敏感任务的限制。

4. OpenAI 宣布“星际之门”首个国际部署项目落户阿联酋

5 月 22 日,OpenAI 宣布与阿联酋科技公司 G42 合作,在阿布扎比建设其“星际之门”(Stargate)项目的首个国际部署——“星际之门阿联酋”(Stargate UAE)。该项目旨在打造一个 1 吉瓦的 AI 计算集群,首期 200 兆瓦的容量预计将于 2026 年上线,最终目标是在阿布扎比建立一个占地 10 平方英里的 AI 超级计算中心,容量达到 5 吉瓦,成为美国以外最大的 AI 数据中心集群。

小火箭shadowrocket

Stargate UAE 项目由 G42 负责建设,OpenAI 和 Oracle 共同运营,合作伙伴还包括英伟达(NVIDIA)、思科(Cisco)和软银集团(SoftBank Group)。该设施将采用英伟达最新的 Grace Blackwell GB300 系统,预计部署约 100,000 个芯片,提供先进的 AI 推理和训练能力。

作为“OpenAI for Countries”计划的一部分,Stargate UAE 标志着阿联酋成为全球首个实现 ChatGPT 全国覆盖的国家。根据协议,阿联酋全国居民将免费获得 ChatGPT Plus 订阅服务,推动 AI 技术在政府、能源、医疗、教育和交通等关键领域的应用。

值得注意的是,OpenAI 还计划将 Stargate 项目扩展至亚太地区,正在积极寻求在该地区建立更多数据中心的机会。

5. OpenAI 扩展 Responses API:引入 MCP 支持、图像生成、Code Interpreter

5 月 21 日,OpenAI 宣布对其核心开发接口 Responses API 进行重大升级,新增对远程 MCP(Model Context Protocol)服务器的支持,并集成图像生成、Code Interpreter 和文件搜索等工具,旨在帮助开发者构建更强大、智能的 AI 应用。这些新功能适用于 OpenAI 的最新模型系列,包括 GPT-4o 、 GPT-4.1 以及推理模型 o3 和 o4-mini 。

小火箭shadowrocket

此次更新引入了对远程 MCP 服务器的支持,使开发者能够通过少量代码,将 OpenAI 模型连接到外部工具和服务,如 Stripe、Shopify 和 Twilio。MCP 是由 Anthropic 推出的开放标准,旨在标准化 AI 模型与外部系统之间的交互。OpenAI 的加入进一步推动了 MCP 生态系统的发展,简化了 AI 应用的集成过程。

开发者现在可以通过 Responses API 访问 OpenAI 最新的图像生成模型 gpt-image-1 ,该模型支持实时流式预览和多轮图像编辑。这使得用户能够在生成过程中查看图像,并根据需要进行逐步调整,提升了图像生成的交互性和精度。

Code Interpreter 工具现已集成至 Responses API,支持复杂的数据分析、数学计算和图像处理任务。结合 o3 和 o4-mini 模型,Code Interpreter 在多个基准测试中表现出色,提升了模型在处理复杂任务时的能力。

文件搜索工具经过升级,现支持跨多个向量存储的搜索,并引入基于属性的过滤功能。这使得 AI 模型能够更高效地从分布式文档中提取相关信息,满足市场研究、教育和软件开发等领域的需求。

6. 微软开源 GitHub Copilot Chat 扩展

5 月 19 日,微软宣布将以 MIT 协议开源 GitHub Copilot Chat 扩展的代码,并计划将其核心功能整合到 Visual Studio Code(VS Code)中,推动 VS Code 向开源 AI 编辑器转型。

小火箭shadowrocket

此次开源的主要内容包括 GitHub Copilot Chat 扩展的前端代码,涵盖初始化逻辑、用户界面和与 VS Code 的集成部分。虽然底层的 AI 模型(如 Codex)仍为专有服务,但微软计划将 Copilot Chat 的核心功能逐步整合到 VS Code 的核心代码库中,使其成为 VS Code 的原生功能。

微软表示,此次开源的动因包括:大型语言模型(LLM)的显著进步使得“提示工程”策略不再是核心竞争力;AI 交互的用户体验已在各编辑器中趋于一致,开源将促进社区对这些 UI 元素的优化;开源将提高 AI 编辑器的数据透明度,增强用户信任。

7. 谷歌搜索全面升级:AI 模式、Gemini 2.5 与深度搜索

在 2025 年的 Google I/O 大会上,谷歌宣布对搜索引擎进行重大升级,推出全新的 AI 模式(AI Mode),并引入最新的 Gemini 2.5 模型,旨在为用户提供更智能、个性化的搜索体验。

小火箭shadowrocket

AI 模式是谷歌搜索的新界面,用户可以通过点击搜索栏中的 AI 模式按钮,进入一个对话式的搜索环境。在此模式下,用户不仅可以提出复杂的问题,还能进行多轮追问,系统会根据上下文提供更深入的答案。AI 模式利用“查询扩展”技术,将用户的问题拆解成多个子问题,并同时进行搜索,最终整合成一个全面的回答。此外,AI 模式还集成了 Gmail 和 Chrome 的数据,提供个性化的建议和任务指导,如起草邮件或管理浏览器标签页。

支撑 AI 模式的是谷歌最新的 Gemini 2.5 模型。此外,谷歌还推出了“深度搜索”(Deep Search)功能,能够自动浏览数百个网站,生成详尽的研究报告,适用于市场分析、学术研究等场景 。

8. 谷歌推出 AI Pro 与 AI Ultra 订阅计划

在 2025 年的 Google I/O 开发者大会上,谷歌正式发布了两项全新的 AI 订阅服务: Google AI Pro 和 Google AI Ultra ,这两项服务分别定价为每月 19.99 美元和 249.99 美元,现已在美国上线,未来将扩展至更多国家。

小火箭shadowrocket

Google AI Pro:

AI Pro 订阅计划主要面向希望提升工作效率和创作能力的用户,提供以下核心功能:

访问 Gemini 2.5 Pro 模型,支持“深度研究”(Deep Research)功能,帮助用户进行复杂的信息检索和分析。

使用 Veo 2 进行视频生成,结合 Flow 工具创建高质量的 AI 视频内容。

集成 Gemini 到 Gmail、Docs、Chrome 等谷歌应用中,实现智能写作和网页摘要等功能。

享受 2TB 的 Google 云端存储空间,满足日常文件存储需求。

此外,学生用户可在 2026 年毕业前免费使用 AI Pro 计划,支持学术写作、考试准备等场景。

Google AI Ultra:

AI Ultra 订阅计划则面向开发者、创作者和企业用户,提供最先进的 AI 功能和更高的使用配额,包括:

访问 Gemini 2.5 Pro 的“深度思考”(Deep Think)模式,提升在复杂数学和编程任务中的推理能力。

使用 Veo 3 模型和 Flow 工具进行 1080p 视频生成,支持高级摄像控制和音频同步。

通过 Whisk Animate 将图像快速转换为 8 秒视频,激发创意表达。

享受 NotebookLM 的最高使用配额,满足研究、教学和项目管理等需求。

使用 Project Mariner 实验性工具,同时自动处理多达 10 项任务,提高工作效率。

获得 30TB 的 Google 云端存储空间,并包含 YouTube Premium 订阅服务。

9. 谷歌发布文生图模型 Imagen 4

在 2025 年的 Google I/O 大会上,Google 正式发布了其迄今为止最强大的文本生成图像模型 Imagen 4 。 Imagen 4 能够生成高达 2K 分辨率的图像,细节表现更加出色,能够精准呈现织物纹理、水滴、动物毛发等复杂元素。在风格方面,支持从写实摄影到抽象艺术的多种视觉风格,满足多样化的创作需求。

小火箭shadowrocket

此外, Imagen 4 在文字渲染方面取得了重大突破,能够生成清晰、准确的文字内容,适用于海报、邀请函、贺卡等需要图文结合的场景 。

Google 表示, Imagen 4 的生成速度已超过前代模型 Imagen 3 ,并计划推出一个“快速版本”,其速度将是 Imagen 3 的 10 倍,满足用户对实时创作的需求。

Imagen 4 已集成至多款 Google 产品中,包括 Gemini 应用、Whisk、Vertex AI 平台,以及 Google Workspace 套件中的 Slides、Docs 和 Vids,用户可在熟悉的工作环境中直接使用该模型。

10. 谷歌发布 AI 视频生成模型 Veo 3

在 2025 年的 Google I/O 开发者大会上,谷歌正式发布了其最新的 AI 视频生成模型 Veo 3 ,标志着 AI 视频创作进入了“有声电影”时代。与前代模型相比, Veo 3 不仅能生成高质量的视频画面,还能同步生成对话、背景音效和音乐,实现了视觉与听觉的高度融合。

小火箭shadowrocket

Veo 3 支持用户通过简单的文本或图像提示,生成包含对话、环境音效和背景音乐的完整视频内容。例如,输入“一个喜剧演员在小型俱乐部表演”,模型即可生成包含演员表演、观众笑声和现场氛围音效的完整视频片段。

此外, Veo 3 在物理模拟、人物动作和唇形同步方面表现出色,能够生成更具真实感和连贯性的动态视频内容。

目前, Veo 3 已集成至谷歌的 Gemini 应用和 Flow 创作平台,供创作者进行视频创作和编辑。该模型面向订阅了每月 249.99 美元的 AI Ultra 计划的用户开放使用。(最新消息,Pro 会员现也可以体验 Veo 3 模型,可能为灰度发布)

11. 谷歌推出 AI 编程智能体 Jules

5 月 20 日,谷歌正式发布了其 AI 编程智能体 Jules 的全球公测版本,旨在与 GitHub Copilot 和 OpenAI 的 Codex 展开竞争。与传统的代码补全工具不同, Jules 被定位为“异步编码代理”,能够在后台自主执行复杂的开发任务,让开发者专注于更高层次的工作。

小火箭shadowrocket

Jules 基于谷歌最新的 Gemini 2.5 Pro 模型,具备以下关键功能:

异步执行 :开发者可以将任务委托给 Jules ,如修复 bug、编写测试、更新依赖等, Jules 会在云端虚拟机中独立完成任务,并在完成后提供详细的变更计划和差异对比。

深度 GitHub 集成 : Jules 可直接连接至 GitHub 仓库,自动创建分支、提交拉取请求,并生成语音变更日志,帮助开发者快速了解项目进展。

多任务并行处理 :支持同时处理多个任务,提高开发效率,特别适用于大型项目或团队协作场景。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/240.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>