DeepSeek强势回归Claude新模型编程登顶OpenAI和谷歌同时限流AIWeek

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 🧮 DeepSeek 发布 DeepSeekMath-V2 :685B 参数数学推理模型,Putnam 2024 拿下 118/120 分超越人类最高分,IMO 2025 达金牌水平,首个开源的顶级数学模型。

2️⃣ 🎨 阿里开源 Z-Image :6B 参数打出 20B 效果,16GB 显存可跑,8 步采样亚秒级出图,中文海报渲染是一大亮点,发布首日下载超 50 万。

3️⃣ 📊 Kimi 上线 Agentic Slides :一键将 PDF/图片/文档转为演示文稿,集成谷歌 Nano Banana Pro 生成设计师级信息图,支持 PPTX 导出。

4️⃣ 🗣️ 豆包语音大升级 :支持粤语、东北话、四川话、陕西话 4 种方言输出,能听懂上海话、天津话等 18 种方言输入,ASR 准确率达 92%。

5️⃣ 🎙️ ChatGPT 语音模式并入主界面 :语音和文字可在同一对话中自由切换,AI 回答实时显示文字,图片/地图同步呈现,边说边看成为默认体验。

6️⃣ 🛒 ChatGPT 上线购物研究功能 :由 GPT-5 mini 购物专用版驱动,通过问答了解需求后生成个性化购物指南,黑五期间免费用户几乎无限使用。

7️⃣ ⚠️ Sora 和 Nano Banana Pro 同时限流 :OpenAI 免费用户每天仅能生成 6 条视频,谷歌免费图像生成从 3 张砍到 2 张,算力告急,免费 AI 黄金时代或将收尾。

8️⃣ 🏆 Claude Opus 4.5 发布 :SWE bench 首破 80%(80.9%),内部工程考试得分超过所有人类候选人,定价较上代降价 66%,同步推出 Chrome 和 Excel 扩展。

9️⃣ 🖼️ Black Forest Labs 发布 FLUX.2 :32B 参数,最高支持 4MP 输出,可同时输入 10 张参考图保持一致性,开放权重版本已可在 ComfyUI 运行。

01|DeepSeek 发布 DeepSeekMath-V2:Putnam 118 120 超人类最高分

11 月 27 日,DeepSeek 开源数学推理模型 DeepSeekMath-V2 ,主打“自我验证”能力,不只追求答案正确,更要求推理过程严谨可查。模型基于 DeepSeek-V3.2 Exp Base 构建,参数量 685B,在顶级数学竞赛中表现惊人:IMO 2025 解出 6 题中的 5 题达金牌水平,Putnam 2024 拿下 118 120 分,超过当年人类最高分 90 分。在 Google DeepMind 开发的 IMO ProofBench 基准测试中,基础测试超越了同为金牌级别的 DeepThink 模型。

小火箭shadowrocket

技术核心是“验证器-生成器”双模型架构:先训练一个严格的证明验证器,再让生成器学会产出能通过验证的证明。当生成器变强后,系统会自动扩展验证算力来标注更难的证明,形成持续进化的闭环。模型权重已在 HuggingFace 开放下载,遵循 Apache 2.0 协议。这是继 OpenAI 和 Google 之后,第三个达到 IMO 金牌水平的数学模型,也是首个开源的同级别选手。

02|阿里开源 Z-Image:6B 参数打出 20B 效果,16G 显存可跑

11 月 27 日,阿里通义实验室开源图像生成模型 Z-Image ,参数量仅 6B,但官方称视觉质量接近 20B 级别的闭源模型。核心是单流 DiT 架构,把文本和图像 token 塞进同一个 Transformer 处理,省掉了双流模型的重复参数开销。蒸馏版 Z-Image Turbo 只需 8 步采样即可出图,H800 上实现亚秒级生成,16GB 显存的 RTX 30 系列也能流畅运行。发布首日下载量超 50 万。

小火箭shadowrocket

模型分三个版本:Turbo 主打快速生成和中英双语文字渲染,Base 供社区微调,Edit 专攻自然语言指令编辑。中文海报渲染是一大卖点,这块一直是海外开源模型的软肋。采用 Apache 2.0 协议开源,发布时间恰在 32B 参数的 FLUX.2 之后,走了一条小参数高效率的差异化路线。

03|Kimi 上线 Agentic Slides,集成 Nano Banana Pro 生成信息图

11 月 28 日,月之暗面旗下 Kimi 推出“Agentic Slides”功能,可将 PDF、图片、文档一键转为演示文稿,并集成谷歌 Nano Banana Pro 生成设计师级别的信息图和插画。生成的幻灯片支持在线编辑和 PPTX 导出,搭配 Kimi K2 的智能搜索能力自动补充内容。感恩节期间提供 48 小时免费无限使用。

小火箭shadowrocket

早期测试显示, Nano Banana Pro 生成的信息图可一键转为可编辑文本,但部分页面转换不完整,且暂不支持企业品牌模板定制。对于需要快速出稿的场景是个实用工具,但专业设计场景仍需人工调整。

04|豆包语音升级:能说 4 种方言,能听懂 18 种

11 月 28 日,豆包 App 更新语音对话功能,现支持用粤语、东北话、陕西话、四川话进行对话。技术上采用方言迁移方案,单个音色即可切换多种方言,响应延迟控制在 0.3 秒内;识别端更强,能听懂上海话、南京话、天津话等 18 种方言输入,ASR 准确率达 92%,比传统方案效率提升 40%。

小火箭shadowrocket

用户更新至最新版后,发送“用粤语和我聊天”即可切换。系统会根据对话意图自动识别并灵活切换方言,同时保持默认音色的自然度。对不习惯普通话的老年群体来说是个实用更新,也让语音助手在方言地区的车载、智能家居场景更接地气。

05|ChatGPT 语音模式并入主界面,边说边看成为默认体验

11 月 25 日,OpenAI 将 ChatGPT 的语音模式整合进主聊天界面,结束了此前需要切换到独立全屏的交互方式。更新后,用户点击波形图标即可在聊天窗口内开启语音对话,AI 的回答会实时显示为文字,图片、地图等视觉内容也会同步呈现,比如问附近的面包店,ChatGPT 会一边语音回答一边展示地图和店铺照片。

小火箭shadowrocket

这一改动让语音和文字可以在同一对话中自由切换,对需要边听边看的场景(查路线、审代码、分析图片)更加实用。习惯旧界面的用户可在设置中开启“Separate mode”恢复全屏语音模式。更新已向全平台用户推送,需手动更新 App。

06|ChatGPT 上线购物研究功能,假期期间免费用户几乎无限使用

11 月 25 日,OpenAI 推出 ChatGPT “购物研究”功能,专为假日季的深度购物决策设计。与普通搜索不同,该功能会先通过问答了解用户预算、偏好和使用场景,再从全网抓取价格、库存、评测、规格等信息,几分钟后生成一份个性化购物指南。用户可在过程中标记“更多类似”或“不感兴趣”来实时调整推荐方向。内部测试显示,在多约束条件查询中产品准确率达 52%,比 ChatGPT Search 的 37% 高出 15 个百分点。

小火箭shadowrocket

功能由 GPT-5 mini 的购物专用版本驱动,经过强化学习训练以识别可信来源,OpenAI 表示 Reddit 等真实用户评价比产品页的付费评论更受信任。目前支持 Free、Go、Plus、Pro 全部套餐,黑五期间几乎无限量使用。适合电子产品、美妆、家居、厨电、户外装备等规格复杂的品类,简单的价格查询用普通搜索即可。未来将支持通过 Instant Checkout 直接在 ChatGPT 内完成购买。

07|算力告急:Sora 和 Nano Banana Pro 同时收紧免费额度

OpenAI 和谷歌在感恩节周末同时下调了免费用户的生成额度。Sora 负责人 Bill Peebles 在 X 上直言“我们的 GPU 快烧了”,宣布免费用户每天只能生成 6 条视频;谷歌则将 Nano Banana Pro 的免费图像生成从每天 3 张砍到 2 张, Gemini 3 Pro 也从固定 5 次改为“基础访问,限制可能频繁变化”。付费用户暂不受影响,Google AI Pro 仍为每天 100 次,Ultra 500 次。

小火箭shadowrocket

两家巨头同步限流并非巧合。此前 NotebookLM 已因用户用 Nano Banana Pro 生成 PPT 信息图的需求暴涨,不得不暂停免费访问。Peebles 这次没说限制是临时的,而是提示用户“可按需购买额外次数”,免费 AI 的黄金时代可能正在收尾。

08|Claude Opus 4.5 发布:SWE bench 首破 80%,价格降 66%

11 月 25 日,Anthropic 发布旗舰模型 Claude Opus 4.5 ,在 SWE bench Verified 编程基准测试中拿下 80.9%,成为首个突破 80% 的 AI 模型,领先 GPT-5.1 Codex Max (77.9%)和 Gemini 3 Pro (76.2%)约 3-4 个百分点。更值得一提的是,该模型在 Anthropic 内部 2 小时限时工程考试中得分超过了公司历史上所有人类候选人。

小火箭shadowrocket

Claude Opus 4.5 的定价大幅下调:输入 5 美元 每百万 tokens,输出 25 美元 每百万 tokens,较上代(15、75 美元)降价 66%。同步推出的“工具搜索”功能可按需加载工具定义,将上下文开销削减 85%。此外,Claude for Chrome 向 Max 用户开放,Claude for Excel 扩展至 Team 和 Enterprise 用户。发布时间距 Gemini 3 Pro 仅一周、距 GPT-5.1 仅 12 天,三巨头 11 月扎堆发布旗舰模型。

09|Black Forest Labs 发布 FLUX.2:32B 参数,最高 4MP 输出

11 月 25 日,德国 AI 实验室 Black Forest Labs 发布第二代图像生成模型 FLUX.2 ,参数量 32B,架构上将 Mistral 3 24B 视觉语言模型与 Rectified Flow Transformer 结合,让生成图像具备更真实的光影、透视和物理逻辑。核心升级包括:最高支持 4MP(约 2048×2048)分辨率输出、可同时输入 10 张参考图保持角色 产品 风格一致性、文字排版能力大幅增强。在开放权重模型对比中, FLUX.2 dev 文生图胜率 66.6%,多参考编辑胜率 63.6%,领先同类。

小火箭shadowrocket

模型分四个版本: pro 为托管 API, flex 可调节步数平衡速度与质量, dev 开放权重供本地部署, klein 即将以 Apache 2.0 开源。NVIDIA 联合优化了 FP8 量化版本,VRAM 占用和性能均改善 40%,已可在 ComfyUI 中直接运行。商用需向官方申请授权。发布时间恰在 Nano Banana Pro 上线一周后,开源阵营与闭源巨头的图像生成之战正式开打。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/67.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>