AI模型大爆发GPT5ClaudeOpus41Genie3集体亮相AIW
全面开花的一周!
📢本周AI快讯 | 1分钟速览🚀
1️⃣ 🎯 OpenAI 重磅发布 GPT-5 :8 月 7 日正式推出模块化统一系统,包含 GPT-5 main/mini 、 GPT-5 Thinking 等子模型,支持多模态交互,ChatGPT 前端全面优化。
2️⃣ 🔓 OpenAI 首次开源权重模型 :发布 gpt-oss-120b 和 gpt-oss-20b ,采用 Apache 2.0 协议,性能媲美 o4-mini ,支持本地部署和商用。
3️⃣ 🚀 Claude Opus 4.1 正式上线 :Anthropic 新版本在 SWE-bench 测试达 74.5%,编程和推理能力显著提升,已接入 GitHub Copilot。
4️⃣ 💼 GPT-5 全面入驻微软生态 :Microsoft 365 Copilot、Azure AI、GitHub Copilot 同步升级,新增 "Smart Mode" 智能切换功能。
5️⃣ 🌍 谷歌发布通用世界模型 Genie 3 :DeepMind 推出可渲染数分钟 3D 场景的交互式世界模型,支持实时指令响应,720p 24fps 画质。
6️⃣ 🤖 谷歌推出异步编程智能体 Jules :由 Gemini 2.5 Pro 驱动,支持后台独立运行任务,自动提交 Pull Request,生成音频化变更日志。
7️⃣ 📚 Gemini 上线 Guided Learning :引导式学习功能提供分步支持和可视化内容,向 5 国学生提供一年免费 AI Pro Plan。
8️⃣ 📖 Gemini 推出 Storybook 功能 :一键生成 10 页图文故事书,支持 45 种语言和多种艺术风格,配备 AI 语音朗读。
9️⃣ 🎬 马斯克 xAI 发布 Grok Imagine :"AI 版 Vine" 文本转视频工具,30 秒内生成最长 6 分钟视频,速度比主流平台快 2-4 倍。
1️⃣0️⃣ 🎵 ElevenLabs 推出 Eleven Music :文本转音乐模型可生成录音室级音频,包含歌词演唱,提供免费商用许可。
1️⃣1️⃣ 🖼️ 阿里开源 Qwen-Image 模型 :20B 参数 MMDiT 架构图像生成模型,支持复杂中英文混排和细粒度编辑,多项评测达 SOTA。
01|OpenAI 重磅发布 GPT‑5,多模态、推理、统一系统
8 月 7 日,OpenAI 在直播发布会上正式推出了最新旗舰模型 GPT‑5 ,并同步于 ChatGPT 和 API 平台全面上线。
此次更新带来了模型结构、速度与功能的大幅升级:
GPT‑5 被构建为一个模块化统一系统(包括主推理模型 GPT‑5 main/mini 、深度思考模型 GPT‑5 Thinking 、以及专门的 API 使用 nano 版本),并通过实时路由机制自动调度最合适子模型应对任务。
性能方面进一步提升:响应更快、推理与代码生成能力显著增强、幻觉率下降,且支持文本、图像与语音等多模态交互。
在用户体验上,ChatGPT 前端也做了全面优化:默认运行 GPT‑5 ,多模型切换界面被摒弃;新增个性化“人格”设置(如 Cynic、Robot、Listener、Nerd 等风格);改进“vibe coding”能力,用户可在 Canvas 上交互预览生成内容,还可以自定义界面配色与语音风格;此外,ChatGPT Pro 用户现已可体验拥有更长“思考”的 GPT-5 pro 模型,Team 用户预计下周开放权限。
02|OpenAI 发布首批开源权重模型:gpt-oss-120b / 20b
8 月 6 日,OpenAI 宣布推出两款开源权重大语言模型 gpt-oss-120b 与 gpt-oss-20b ,这是该公司自 2019 年 GPT-2 以来首次开放模型权重。两款模型均可在 Hugging Face 免费下载,并采用 Apache 2.0 开源协议,支持商用与再分发,允许开发者离线运行,提升数据隐私与可定制性。
从性能上看, gpt-oss-120b 在多项基准测试中已与甚至超越 OpenAI 的专有模型 o3-mini 和 o4-mini 持平,具备链式推理(chain-of-thought)能力,可将复杂任务分解为步骤解决。 gpt-oss-20b 面向轻量级部署优化,可在配备 16GB 内存的消费级 PC 或 Snapdragon 设备上本地运行,而 gpt-oss-120b 则需更高端 GPU(如 NVIDIA RTX Pro 系列)支持。
此次开源被视为 OpenAI 在与 Meta、Mistral、DeepSeek 等开放权重模型竞争中的战略举措。CEO Sam Altman 表示,这是“让 AI 民主化”的一步,旨在让更多开发者在保证隐私的前提下,直接探索和改造大模型的内部机制。
03|Claude Opus 4.1 正式上线,主打编程与推理
8 月 6 日,Anthropic 宣布发布升级版本 Claude Opus 4.1 ,作为 Claude Opus 4 的替代型号,它在编码、复杂任务推理和 agentic 问题解决方面实现显著强化。该模型对多步骤编程和问题细节的处理更为严谨精准,特别擅长处理真实场景下的系统性分析与指令执行。
根据最新评测, Claude Opus 4.1 在 SWE‑bench (Verified) 基准测试中取得 74.5% 的成绩,相较于 Claude Opus 4 之前的 72.5% 水平,小幅提升,同时远超 Claude Sonnet 3.7 的 62.3%,展现出更高的软件工程能力与稳定性。
在可用性方面,该型号对付费用户全面开放:通过 Claude Pro、Claude Code 平台,以及 API,并已扩展至 Amazon Bedrock 和谷歌 Cloud Vertex AI。同时,GitHub Copilot 亦已为 Enterprise 和 Pro+ 订阅用户引入 Claude Opus 4.1 选项,通过 Copilot Chat 接入。
04|GPT-5 入驻微软生态,Copilot 全线升级
OpenAI 于 2025 年 8 月 7 日正式发布了新一代旗舰模型 GPT‑5 ,并宣布与微软平台深度联动。当日,微软同步确认将在其核心产品中启用 GPT‑5 ,包括 Copilot、Microsoft 365 Copilot、Azure AI Foundry 以及 GitHub Copilot 等关键组件。
其中,Copilot 新增了一个名为 “Smart Mode”(智能模式)的功能,能够根据任务需求在“快速响应”与“深度推理”之间自动切换,为用户提供更流畅、高效的交互体验。 Microsoft 365 Copilot 则借助 GPT‑5 实现了更强的上下文理解和持续对话处理能力,显著增强办公效率与语境连贯性。而开发者工具方面,GitHub Copilot 的付费用户现已享用 GPT‑5 支持,代码生成与逻辑推理能力明显提升。另外,Azure AI Foundry 也集成了 GPT‑5 ,通过模型路由机制确保任务智能匹配最合适的模型,为开发者打造更灵活的 AI 应用环境。
05|谷歌 DeepMind 发布首个通用世界模型 Genie 3
2025 年 8 月,谷歌 DeepMind 正式推出 Genie 3 ,这是一款能够实时交互的通用“世界模型”,被视为通向通用人工智能(AGI)的重要一步。与前代 Genie 2 只能生成 10–20 秒的短暂模拟不同, Genie 3 可在 720p、24 帧/秒的画质下渲染长达数分钟的 3D 场景,并在整个过程中保持连贯性和环境一致性。更重要的是,它能响应用户的实时指令,例如通过文本提示添加角色、改变天气或修改地形,而无需重启模拟,让用户真正参与到动态的虚拟世界构建中。
技术表现上, Genie 3 的场景记忆能力显著增强,即使用户离开某个区域再返回,环境细节仍能被准确还原。这一特性不仅提升了沉浸感,也为复杂的物理模拟、自然环境重建以及虚构世界的生成提供了坚实基础。DeepMind 认为,这种能力对训练具身智能体(如机器人)尤为关键,能在安全可控的虚拟环境中进行长期学习与试验,从而降低现实世界测试的成本与风险。
目前, Genie 3 仍处于研究预览阶段,仅向部分科研团队与创意工作室开放,但其潜力已引发业界对未来交互式 AI 世界的广泛期待。
06|谷歌正式推出异步 AI 编程智能体 Jules
8 月 7 日,谷歌正式发布 Jules,一款由 Gemini 2.5 Pro 驱动的异步 AI 编程智能体,旨在成为开发者的“智能伙伴”。与传统实时 AI 助手不同,Jules 支持在后台独立运行任务,开发者可在委派代码修改、Bug 修复、功能添加或依赖更新等需求后,继续专注于其他工作,而 Jules 会在云端自动完成任务并返回可审查的结果。
Jules 的优势在于对项目的全局理解与自然融入现有开发流程。它会将代码库安全地克隆至 Google Cloud VM,深入解析项目结构,从而在多个文件间做出一致且合理的改动。所有任务均可并行异步执行,完成后通过 GitHub 提交 Pull Request,并直接对接 Issues 流程,减少上下文切换。每次改动前,Jules 会先展示详细的计划、推理步骤及代码差异(diff),开发者可完全掌控审核与修改权。更有趣的是,它还会生成音频化的变更日志,让团队成员通过听觉快速了解更新内容。
自 Beta 阶段亮相以来,Jules 已获得开发者社区的广泛关注与积极反馈。此次全面上线,谷歌在保留免费入门版的同时,推出了功能更强的 Pro 与 Ultra 订阅方案,并引入 “Environment Snapshots” 等新特性,对界面和稳定性进行了大幅优化。
07|谷歌 Gemini 推出引导式学习模式 Guided Learning
8 月 7 日,谷歌在 Gemini 平台上推出“Guided Learning”(引导式学习)功能,这是一个旨在提升学习深度、促进理解而非直接给出答案的重要教育型功能。
Guided Learning 通过内置科学学习机制,在解答过程中提供分步支持与可视化内容,使用户能够主动参与学习流程,从而提升信息记忆与思维训练能力。谷歌表示,这一功能是在与学生、教育工作者及学习专家合作下开发,旨在打造一位真正的“学习伙伴”。
同时,Guided Learning 正面回应了 AI 在教育中的“作弊”争议,谷歌希望通过这一功能改变 AI 工具在学生心中的用途认知,引导其成为真正的学习助手,而非作答机器。同时,谷歌向美国、日本、印度尼西亚、韩国和巴西等国家的 18 岁以上学生提供一年 AI Pro Plan 免费订阅,鼓励其使用更完整版本的教学工具。
08|谷歌 Gemini 上线 Storybook 功能,一键生成图文故事
8 月 6 日,谷歌为 Gemini AI 推出新的实验功能 Storybook(图文故事书),只需简单描述故事大意,便可生成一本带插图与朗读配音的 10 页故事书。
这个功能支持多达 45 种语言,用户还能自定义故事风格,如粘土动画、动漫、漫画、素描书等,也可以上传照片、孩子的画作等视觉素材,让内容更加个性化、有亲和力,包括艺术风格选择与图片参考。
生成结果不仅包含文本与插图,还提供 AI 语音朗读,适合家长用作讲睡前故事。同时,谷歌建议将 Storybook 用作教育工具,可用于讲解复杂概念或传递价值观,如将太阳系、分享或家庭情境转化为图文并茂的小故事。
09|马斯克 xAI 推出 AI 视频工具 Grok Imagine
8 月 3 日,埃隆·马斯克在社交平台 X 宣布上线全新 AI 文本转视频工具 Grok Imagine,并将其称作“AI 版 Vine”(AI-Vine)。该功能内嵌于 Grok 聊天机器人和 X 应用,用户只需输入简短文字或上传图片,即可生成带有音频的短视频,兼具创意表达与互动潜力。
Grok Imagine 可生成时长从数秒至 6 分钟的视频,支持文字与图片输入,输出配音及背景音。其最大亮点是生成速度——通常在 30 秒内即可完成,相当于主流 AI 平台所需时间的四分之一至二分之一。
目前,该功能处于 Beta 阶段,已向 SuperGrok(30 美元/月)与 Premium+ 用户开放;普通用户可通过更新 X 应用并加入等待名单申请体验。马斯克还透露,团队已找回大量历史 Vine 视频档案,未来计划支持用户重新发布旧作,为平台增添浓厚的怀旧氛围。
10|ElevenLabs 推出文本转音乐模型 Eleven Music
8 月 6 日,ElevenLabs 正式发布其 AI 音乐生成模型 Eleven Music,该模型能够根据简洁的文字提示生成涵盖多种风格的录音室级音频,甚至包括完整的歌词与演唱。用户只需输入类似于“制作一首带有浪漫旋律的拉丁雷鬼风格歌曲”这样的描述,即可在数分钟内获得带有人声与伴奏的成品。
ElevenLabs 为确保合法使用与版权保护,与 Merlin Network 和 Kobalt Music Group 达成合作协议,在模型训练与商业授权上为创作者和用户提供保障,包括分润机制与版权清晰准入。此外,该工具内建多项安全策略,能够过滤艺术家资讯、已知歌词、暴力或仇恨言论,降低侵权和伦理风险。
值得注意的是,Eleven Music 提供了免费商用许可,使得生成的音乐可用于 YouTube 视频、电影配乐与广告等多种商业场景,同时兼具法律风险可控与使用便利两大优势。
11|阿里开源 20B MMDiT 图像生成模型 Qwen-Image
8 月 5 日,阿里通义千问团队正式发布并开源其首个图像生成基础模型 Qwen-Image 。该模型基于多模态扩散变换器(MMDiT)架构,拥有 20B 参数,不仅能根据文本生成高质量图像,还支持在画面中精确渲染文字与执行细粒度编辑。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/169.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论