AI模型大爆发GPT5ClaudeOpus41Genie3集体亮相AIW

小火箭shadowrocket • 2026年1月1日 am8:03 • 小火箭

全面开花的一周！

?本周AI快讯 | 1分钟速览?

1️⃣ ? OpenAI 重磅发布 GPT-5 ：8 月 7 日正式推出模块化统一系统，包含 GPT-5 main/mini 、 GPT-5 Thinking 等子模型，支持多模态交互，ChatGPT 前端全面优化。

2️⃣ ? OpenAI 首次开源权重模型：发布 gpt-oss-120b 和 gpt-oss-20b ，采用 Apache 2.0 协议，性能媲美 o4-mini ，支持本地部署和商用。

3️⃣ ? Claude Opus 4.1 正式上线：Anthropic 新版本在 SWE-bench 测试达 74.5%，编程和推理能力显著提升，已接入 GitHub Copilot。

4️⃣ ? GPT-5 全面入驻微软生态：Microsoft 365 Copilot、Azure AI、GitHub Copilot 同步升级，新增 "Smart Mode" 智能切换功能。

5️⃣ ? 谷歌发布通用世界模型 Genie 3 ：DeepMind 推出可渲染数分钟 3D 场景的交互式世界模型，支持实时指令响应，720p 24fps 画质。

6️⃣ ? 谷歌推出异步编程智能体 Jules ：由 Gemini 2.5 Pro 驱动，支持后台独立运行任务，自动提交 Pull Request，生成音频化变更日志。

7️⃣ ? Gemini 上线 Guided Learning ：引导式学习功能提供分步支持和可视化内容，向 5 国学生提供一年免费 AI Pro Plan。

8️⃣ ? Gemini 推出 Storybook 功能：一键生成 10 页图文故事书，支持 45 种语言和多种艺术风格，配备 AI 语音朗读。

9️⃣ ? 马斯克 xAI 发布 Grok Imagine ："AI 版 Vine" 文本转视频工具，30 秒内生成最长 6 分钟视频，速度比主流平台快 2-4 倍。

1️⃣0️⃣ ? ElevenLabs 推出 Eleven Music ：文本转音乐模型可生成录音室级音频，包含歌词演唱，提供免费商用许可。

1️⃣1️⃣ ?️ 阿里开源 Qwen-Image 模型：20B 参数 MMDiT 架构图像生成模型，支持复杂中英文混排和细粒度编辑，多项评测达 SOTA。

01｜OpenAI 重磅发布 GPT‑5，多模态、推理、统一系统

8 月 7 日，OpenAI 在直播发布会上正式推出了最新旗舰模型 GPT‑5 ，并同步于 ChatGPT 和 API 平台全面上线。

此次更新带来了模型结构、速度与功能的大幅升级：

GPT‑5 被构建为一个模块化统一系统（包括主推理模型 GPT‑5 main/mini 、深度思考模型 GPT‑5 Thinking 、以及专门的 API 使用 nano 版本），并通过实时路由机制自动调度最合适子模型应对任务。

性能方面进一步提升：响应更快、推理与代码生成能力显著增强、幻觉率下降，且支持文本、图像与语音等多模态交互。

在用户体验上，ChatGPT 前端也做了全面优化：默认运行 GPT‑5 ，多模型切换界面被摒弃；新增个性化“人格”设置（如 Cynic、Robot、Listener、Nerd 等风格）；改进“vibe coding”能力，用户可在 Canvas 上交互预览生成内容，还可以自定义界面配色与语音风格；此外，ChatGPT Pro 用户现已可体验拥有更长“思考”的 GPT-5 pro 模型，Team 用户预计下周开放权限。

02｜OpenAI 发布首批开源权重模型：gpt-oss-120b / 20b

8 月 6 日，OpenAI 宣布推出两款开源权重大语言模型 gpt-oss-120b 与 gpt-oss-20b ，这是该公司自 2019 年 GPT-2 以来首次开放模型权重。两款模型均可在 Hugging Face 免费下载，并采用 Apache 2.0 开源协议，支持商用与再分发，允许开发者离线运行，提升数据隐私与可定制性。

从性能上看， gpt-oss-120b 在多项基准测试中已与甚至超越 OpenAI 的专有模型 o3-mini 和 o4-mini 持平，具备链式推理（chain-of-thought）能力，可将复杂任务分解为步骤解决。 gpt-oss-20b 面向轻量级部署优化，可在配备 16GB 内存的消费级 PC 或 Snapdragon 设备上本地运行，而 gpt-oss-120b 则需更高端 GPU（如 NVIDIA RTX Pro 系列）支持。

此次开源被视为 OpenAI 在与 Meta、Mistral、DeepSeek 等开放权重模型竞争中的战略举措。CEO Sam Altman 表示，这是“让 AI 民主化”的一步，旨在让更多开发者在保证隐私的前提下，直接探索和改造大模型的内部机制。

03｜Claude Opus 4.1 正式上线，主打编程与推理

8 月 6 日，Anthropic 宣布发布升级版本 Claude Opus 4.1 ，作为 Claude Opus 4 的替代型号，它在编码、复杂任务推理和 agentic 问题解决方面实现显著强化。该模型对多步骤编程和问题细节的处理更为严谨精准，特别擅长处理真实场景下的系统性分析与指令执行。

根据最新评测， Claude Opus 4.1 在 SWE‑bench (Verified) 基准测试中取得 74.5% 的成绩，相较于 Claude Opus 4 之前的 72.5% 水平，小幅提升，同时远超 Claude Sonnet 3.7 的 62.3%，展现出更高的软件工程能力与稳定性。

在可用性方面，该型号对付费用户全面开放：通过 Claude Pro、Claude Code 平台，以及 API，并已扩展至 Amazon Bedrock 和谷歌 Cloud Vertex AI。同时，GitHub Copilot 亦已为 Enterprise 和 Pro+ 订阅用户引入 Claude Opus 4.1 选项，通过 Copilot Chat 接入。

04｜GPT-5 入驻微软生态，Copilot 全线升级

OpenAI 于 2025 年 8 月 7 日正式发布了新一代旗舰模型 GPT‑5 ，并宣布与微软平台深度联动。当日，微软同步确认将在其核心产品中启用 GPT‑5 ，包括 Copilot、Microsoft 365 Copilot、Azure AI Foundry 以及 GitHub Copilot 等关键组件。

其中，Copilot 新增了一个名为 “Smart Mode”（智能模式）的功能，能够根据任务需求在“快速响应”与“深度推理”之间自动切换，为用户提供更流畅、高效的交互体验。 Microsoft 365 Copilot 则借助 GPT‑5 实现了更强的上下文理解和持续对话处理能力，显著增强办公效率与语境连贯性。而开发者工具方面，GitHub Copilot 的付费用户现已享用 GPT‑5 支持，代码生成与逻辑推理能力明显提升。另外，Azure AI Foundry 也集成了 GPT‑5 ，通过模型路由机制确保任务智能匹配最合适的模型，为开发者打造更灵活的 AI 应用环境。

05｜谷歌 DeepMind 发布首个通用世界模型 Genie 3

2025 年 8 月，谷歌 DeepMind 正式推出 Genie 3 ，这是一款能够实时交互的通用“世界模型”，被视为通向通用人工智能（AGI）的重要一步。与前代 Genie 2 只能生成 10–20 秒的短暂模拟不同， Genie 3 可在 720p、24 帧/秒的画质下渲染长达数分钟的 3D 场景，并在整个过程中保持连贯性和环境一致性。更重要的是，它能响应用户的实时指令，例如通过文本提示添加角色、改变天气或修改地形，而无需重启模拟，让用户真正参与到动态的虚拟世界构建中。

技术表现上， Genie 3 的场景记忆能力显著增强，即使用户离开某个区域再返回，环境细节仍能被准确还原。这一特性不仅提升了沉浸感，也为复杂的物理模拟、自然环境重建以及虚构世界的生成提供了坚实基础。DeepMind 认为，这种能力对训练具身智能体（如机器人）尤为关键，能在安全可控的虚拟环境中进行长期学习与试验，从而降低现实世界测试的成本与风险。

目前， Genie 3 仍处于研究预览阶段，仅向部分科研团队与创意工作室开放，但其潜力已引发业界对未来交互式 AI 世界的广泛期待。

06｜谷歌正式推出异步 AI 编程智能体 Jules

8 月 7 日，谷歌正式发布 Jules，一款由 Gemini 2.5 Pro 驱动的异步 AI 编程智能体，旨在成为开发者的“智能伙伴”。与传统实时 AI 助手不同，Jules 支持在后台独立运行任务，开发者可在委派代码修改、Bug 修复、功能添加或依赖更新等需求后，继续专注于其他工作，而 Jules 会在云端自动完成任务并返回可审查的结果。

Jules 的优势在于对项目的全局理解与自然融入现有开发流程。它会将代码库安全地克隆至 Google Cloud VM，深入解析项目结构，从而在多个文件间做出一致且合理的改动。所有任务均可并行异步执行，完成后通过 GitHub 提交 Pull Request，并直接对接 Issues 流程，减少上下文切换。每次改动前，Jules 会先展示详细的计划、推理步骤及代码差异（diff），开发者可完全掌控审核与修改权。更有趣的是，它还会生成音频化的变更日志，让团队成员通过听觉快速了解更新内容。

自 Beta 阶段亮相以来，Jules 已获得开发者社区的广泛关注与积极反馈。此次全面上线，谷歌在保留免费入门版的同时，推出了功能更强的 Pro 与 Ultra 订阅方案，并引入 “Environment Snapshots” 等新特性，对界面和稳定性进行了大幅优化。

07｜谷歌 Gemini 推出引导式学习模式 Guided Learning

8 月 7 日，谷歌在 Gemini 平台上推出“Guided Learning”（引导式学习）功能，这是一个旨在提升学习深度、促进理解而非直接给出答案的重要教育型功能。

Guided Learning 通过内置科学学习机制，在解答过程中提供分步支持与可视化内容，使用户能够主动参与学习流程，从而提升信息记忆与思维训练能力。谷歌表示，这一功能是在与学生、教育工作者及学习专家合作下开发，旨在打造一位真正的“学习伙伴”。

同时，Guided Learning 正面回应了 AI 在教育中的“作弊”争议，谷歌希望通过这一功能改变 AI 工具在学生心中的用途认知，引导其成为真正的学习助手，而非作答机器。同时，谷歌向美国、日本、印度尼西亚、韩国和巴西等国家的 18 岁以上学生提供一年 AI Pro Plan 免费订阅，鼓励其使用更完整版本的教学工具。

08｜谷歌 Gemini 上线 Storybook 功能，一键生成图文故事

8 月 6 日，谷歌为 Gemini AI 推出新的实验功能 Storybook（图文故事书），只需简单描述故事大意，便可生成一本带插图与朗读配音的 10 页故事书。

这个功能支持多达 45 种语言，用户还能自定义故事风格，如粘土动画、动漫、漫画、素描书等，也可以上传照片、孩子的画作等视觉素材，让内容更加个性化、有亲和力，包括艺术风格选择与图片参考。

生成结果不仅包含文本与插图，还提供 AI 语音朗读，适合家长用作讲睡前故事。同时，谷歌建议将 Storybook 用作教育工具，可用于讲解复杂概念或传递价值观，如将太阳系、分享或家庭情境转化为图文并茂的小故事。

09｜马斯克 xAI 推出 AI 视频工具 Grok Imagine

8 月 3 日，埃隆·马斯克在社交平台 X 宣布上线全新 AI 文本转视频工具 Grok Imagine，并将其称作“AI 版 Vine”（AI-Vine）。该功能内嵌于 Grok 聊天机器人和 X 应用，用户只需输入简短文字或上传图片，即可生成带有音频的短视频，兼具创意表达与互动潜力。

Grok Imagine 可生成时长从数秒至 6 分钟的视频，支持文字与图片输入，输出配音及背景音。其最大亮点是生成速度——通常在 30 秒内即可完成，相当于主流 AI 平台所需时间的四分之一至二分之一。

目前，该功能处于 Beta 阶段，已向 SuperGrok（30 美元/月）与 Premium+ 用户开放；普通用户可通过更新 X 应用并加入等待名单申请体验。马斯克还透露，团队已找回大量历史 Vine 视频档案，未来计划支持用户重新发布旧作，为平台增添浓厚的怀旧氛围。

10｜ElevenLabs 推出文本转音乐模型 Eleven Music

8 月 6 日，ElevenLabs 正式发布其 AI 音乐生成模型 Eleven Music，该模型能够根据简洁的文字提示生成涵盖多种风格的录音室级音频，甚至包括完整的歌词与演唱。用户只需输入类似于“制作一首带有浪漫旋律的拉丁雷鬼风格歌曲”这样的描述，即可在数分钟内获得带有人声与伴奏的成品。

ElevenLabs 为确保合法使用与版权保护，与 Merlin Network 和 Kobalt Music Group 达成合作协议，在模型训练与商业授权上为创作者和用户提供保障，包括分润机制与版权清晰准入。此外，该工具内建多项安全策略，能够过滤艺术家资讯、已知歌词、暴力或仇恨言论，降低侵权和伦理风险。

值得注意的是，Eleven Music 提供了免费商用许可，使得生成的音乐可用于 YouTube 视频、电影配乐与广告等多种商业场景，同时兼具法律风险可控与使用便利两大优势。

11｜阿里开源 20B MMDiT 图像生成模型 Qwen-Image

8 月 5 日，阿里通义千问团队正式发布并开源其首个图像生成基础模型 Qwen-Image 。该模型基于多模态扩散变换器（MMDiT）架构，拥有 20B 参数，不仅能根据文本生成高质量图像，还支持在画面中精确渲染文字与执行细粒度编辑。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/169.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

阿里Qwen3MaxThinking终于上线但被这道小学数学题难住了

< <上一篇

Qwen3凭什么封神这8个关键点告诉你答案

下一篇>>

搜索内容

AI模型大爆发GPT5ClaudeOpus41Genie3集体亮相AIW

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章