GPT52正式发布谷歌DeepResearch智能体上线智谱开源杀疯了AIW

小火箭shadowrocket • 2026年1月9日 am8:16 • 小火箭

? 本周 AI 快讯 | 1 分钟速览?

1️⃣ ? 智谱开源 GLM-4.6V ：首个原生支持 Function Call 的多模态模型，上下文 128K，API 降价 50%，9B Flash 版完全免费。

2️⃣ ? 智谱开源 AutoGLM ：业内首个完整开源的 Phone Use 方案，支持微信、淘宝等 50+ 中文 App，可完成外卖点单、机票预订等复杂流程。

3️⃣ ?️ 智谱开源 GLM-TTS ：3 秒克隆音色，字错误率 0.89% 达开源 SOTA，支持方言，API 价格仅为同类 1/3。

4️⃣ ?️ 阿里 Qwen3-Omni-Flash 升级：音色扩展至 49 种，首次开放人设自定义，API 定价输入 1 元/百万 token。

5️⃣ ? OpenAI 发布 GPT-5.2 ：在 GDPval 基准中 70.9% 任务超越人类专家，上下文扩至 40 万 token，API 涨价约 40%。

6️⃣ ? ChatGPT 成人模式：预计 2026 年 Q1 上线，需通过年龄验证，将开放此前受限内容。

7️⃣ ? 迪士尼投资 OpenAI 10 亿美元：200+ 角色入驻 Sora，用户可用米奇、钢铁侠等生成短视频，精选作品将登陆 Disney+。

8️⃣ ? Adobe 三件套入驻 ChatGPT ：Photoshop、Acrobat、Express 原生集成，对话即可修图编辑 PDF，面向 8 亿周活用户免费开放。

9️⃣ ? 谷歌开放 Deep Research API ：基于 Gemini 3 Pro ，定价仅 2 美元/百万 token，支持多步搜索和文档分析。

1️⃣0️⃣ ? 《时代》2025 年度人物：黄仁勋、扎克伯格、马斯克、Altman、苏姿丰、Hassabis、Amodei、李飞飞 8 位“AI 建筑师”登上封面。

01｜智谱开源 GLM-4.6V：首个原生工具调用的多模态模型，API 降价 50%

12 月 8 日，智谱 AI 开源 GLM-4.6V 系列多模态大模型，包括 106B 参数（12B 激活）的云端版和 9B 参数的轻量版 Flash。核心突破是首次将 Function Call 能力原生融入视觉模型架构——图像、截图、文档可直接作为工具参数输入，模型也能理解工具返回的图表、网页截图等多模态结果，打通 “视觉感知→可执行行动” 闭环。上下文窗口扩展至 128k token，在 MMBench、MathVista、OCRBench 等 30+ 基准上达到同参数规模 SOTA：9B 版超越 Qwen3-VL-8B ，106B 版比肩 2 倍参数的 Qwen3-VL-235B 。

API 价格较 GLM-4.5V 降价 50%，输入 1 元/百万 token、输出 3 元/百万 token，Flash 版完全免费。典型应用包括智能图文混排（上传论文自动生成公众号文章）、识图购物（跨平台比价生成导购表格）、前端复刻（截图转可运行网页代码并支持多轮视觉交互修改）。模型权重、推理代码、示例工程已上线 GitHub 和 Hugging Face，MIT 协议允许商业使用。智谱同日开源了手机操作智能体 AutoGLM。

02｜智谱开源 AutoGLM：让每台手机都能成为 AI 手机

12 月 9 日，智谱开源手机操作智能体 AutoGLM，这是业内首个完整开源的 Phone Use 方案。模型 AutoGLM-Phone-9B 基于视觉大模型理解屏幕内容，通过 ADB 指令执行点击、滑动、输入等操作，已支持微信、淘宝、抖音、美团等 50+ 高频中文应用，可稳定完成外卖点单、机票预订等长达数十步的复杂流程。开源内容包括训练好的模型、Phone Use 能力框架、可直接运行的 Demo 和 Android 适配层。

项目从 2023 年 4 月启动研发，历时 32 个月。与字节 “豆包手机助手” 的系统级权限方案不同，AutoGLM 采用视觉理解 + ADB 的开源架构，主要在云端虚拟手机环境运行，并内置敏感操作分级确认机制——常规操作自动执行，支付转账需用户确认。开源意味着硬件厂商和开发者可以快速复现 AI 手机功能，有望打破当前少数厂商主导的格局。

03｜智谱开源 GLM-TTS：3 秒克隆音色，字错误率 0.89% 达开源 SOTA

12 月 11 日，智谱开源工业级语音合成系统 GLM-TTS ，模型权重已上线 Hugging Face 和 ModelScope。核心能力是 3 秒语音样本即可克隆说话人音色、节奏和断句习惯，支持方言（如四川话）。技术上采用两阶段生成架构（Text-to-Token + Token-to-Wav），并引入基于 GRPO 的多奖励强化学习，在 seed-tts-eval 中文测试集上字符错误率（CER）降至 0.89%，达开源 SOTA。训练效率极高：仅用 10 万小时数据（远低于行业主流），单机 4 天完成预训练，LoRA 音色定制单机 1 天。

智谱强调这不是 “好听的 Demo”，而是面向生产的系统。已验证场景包括教育评测（适配多音字、生僻字、数学公式）、电子书有声内容（多角色多情绪）、智能客服（克制专业语气）。API 价格仅为同类产品的约 1/3，可通过智谱开放平台、智谱清言、Z.ai 调用或本地部署。

04｜阿里 Qwen3-Omni-Flash 升级：49 种音色，人设自定义，API 定价 1 元起

阿里 Qwen 团队 12 月 9 日发布 Qwen3-Omni-Flash 升级版，在全模态交互基础上重点强化语音体验。新版本支持 49 种音色——较前代 17 种扩展近 3 倍，首次开放 System Prompt 自定义，可设置 “甜妹”“御姐”“日系” 等人设风格，语速、停顿与韵律自适应调节。性能方面，代码生成（LiveCodeBench）提升 9.3 分，逻辑推理（ZebraLogic）+5.6，多学科视觉问答（MMMU）+4.7。

模型支持 119 种文本语言、19 种语音识别和 10 种语音合成语言，API 定价输入 1 元/百万 token、输出 3 元/百万 token。已在通义千问 App 集成 Demo，支持上传 30 秒视频实时生成带画面口播——对直播、短视频等场景相当于把配音成本打到接近零。

05｜GPT-5.2 发布：职业任务超人类专家，API 涨价 40%

12 月 12 日凌晨，OpenAI 发布 GPT-5.2 ，距前代 GPT-5.1 仅隔三周。新模型分三档：Instant 主打快速响应，Thinking 擅长代码与推理，Pro 面向高精度场景。在 OpenAI 自研的 GDPval 基准测试中（覆盖 44 种职业的知识工作任务）， GPT-5.2 Thinking 在 70.9% 的任务上达到或超越人类专家水平，而 GPT-5 仅为 38.8%， Gemini 3 Pro 为 53.3%， Claude Opus 4.5 为 59.6%。上下文窗口扩展至 40 万 token，幻觉率比 GPT-5.1 降低 38%。

编程能力是本次升级重点。SWE-Bench Pro 得分 55.6%，领先 Gemini 3 Pro 的 43.3% 和 Claude Opus 4.5 的 52.0%；GPQA Diamond 科学推理达 92.4%，略超 Gemini 3 Pro 的 91.9%。JetBrains、Warp、Augment Code 等编程工具厂商参与内测，反馈称在交互式编码、代码审查、Bug 定位等场景达到 “业界最佳”。不过 SWE-bench Verified 上，Anthropic 的 Claude Opus 4.5 仍保持领先。

API 定价上涨约 40%，输入价格升至 1.75 美元/百万 token。ChatGPT 付费用户今日起逐步开放，API 即时可用， GPT-5.1 将作为旧版保留三个月。发布时机敏感——上周 Sam Altman 刚宣布 “Code Red” 应对 Gemini 3 冲击，但 OpenAI 应用负责人 Fidji Simo 强调该模型已研发数月，并非临时赶工。

06｜ChatGPT 成人模式明年 Q1 上线，需通过年龄验证

OpenAI 应用负责人 Fidji Simo 在 GPT-5.2 发布会上确认，ChatGPT “成人模式” 预计 2026 年第一季度推出。该功能将允许经过年龄验证的成年用户访问此前被限制的内容，包括色情文字和更拟人化的对话风格。Sam Altman 此前在 10 月曾预告这一功能，称其体现 “把成年人当成年人对待” 的原则。

上线前提是年龄预测系统过关。OpenAI 正在部分国家测试基于用户行为的年龄识别模型，目标是准确区分未成年人与成年人，避免误判。Simo 表示，宁可让成年人被误识为未成年（默认进入限制模式），也不能让未成年人接触成人内容。此举是对 Grok 等已开放 NSFW 内容的竞品的回应，但也引发关于用户对 AI 产生情感依赖的担忧——今年早些时候的研究显示，与聊天机器人建立情感联系的用户心理困扰风险更高。

07｜迪士尼投资 OpenAI 10 亿美元，200+ 角色入驻 Sora

12 月 11 日，迪士尼与 OpenAI 签署三年授权协议，成为 Sora 首个重大内容授权方。用户可使用超过 200 个迪士尼、漫威、皮克斯、星球大战的动画及虚拟角色（米奇、艾莎、钢铁侠、达斯·维德等）在 Sora 上生成短视频，ChatGPT Images 也可生成相关图片。协议明确不包含任何真人演员的肖像或配音——即可以生成伍迪形象，但没有汤姆·汉克斯的声音。精选用户创作内容将登陆 Disney+ 流媒体平台，预计 2026 年初上线。

迪士尼同时向 OpenAI 投资 10 亿美元并获得额外认股权证，还将成为 OpenAI 大客户：为员工部署 ChatGPT，并利用 API 为 Disney+ 开发新产品。双方成立联合指导委员会监控内容合规。此举引发争议——美国编剧工会（WGA）批评迪士尼此举 “似乎认可了 OpenAI 对创作者作品的盗用”；儿童权益组织 Fairplay 则指责迪士尼用角色引诱儿童使用 Sora。值得注意的是，迪士尼同日向谷歌发出停止侵权函，指控其大规模侵犯迪士尼版权——一边合作、一边诉讼，策略耐人寻味。

08｜Adobe 三件套入驻 ChatGPT：对话即可修图编辑 PDF

12 月 10 日，Adobe 宣布将 Photoshop、Acrobat、Adobe Express 原生集成至 ChatGPT，面向全球 8 亿周活用户免费开放。用户在对话框输入 “Adobe Photoshop，帮我模糊这张图的背景” 即可调用相应工具，无需离开聊天界面。Photoshop 支持局部编辑、背景移除、曝光调整及多种滤镜效果，并提供滑块微调；Adobe Express 可从模板库生成生日卡片、海报等设计稿并添加动画；Acrobat 支持合并 PDF、提取表格、编辑文本等操作。需要更精细控制时，点击 “Open in Photoshop” 可无缝跳转至网页版完整应用，保留所有调整图层。

该集成基于 Model Context Protocol（MCP）构建，是 OpenAI 10 月推出第三方应用框架（首批包括 Canva、Spotify、Figma）后最重量级的合作。目前支持桌面端、网页端和 iOS，Android 暂仅支持 Adobe Express，Photoshop 和 Acrobat 即将上线。使用免费，但生成 PDF 或插图需登录 Adobe 账号。Adobe 称此举旨在让不熟悉专业工具的用户也能轻松完成创意工作，同时为完整版应用导流。

09｜谷歌开放 Deep Research API，定价仅 2 美元/百万 token

12 月 12 日，谷歌发布升级版 Gemini Deep Research 智能体，基于 Gemini 3 Pro 构建，首次通过全新 Interactions API 向开发者开放。该智能体可自主执行多步骤网络搜索、分析用户上传的文档（PDF、CSV、Word），生成带详细引用的结构化报告，支持 JSON 输出。API 定价 2 美元/百万输入 token，远低于 OpenAI 深度研究工具的订阅门槛。基准测试上，Deep Research 在 “人类最后的考试”（HLE）达 46.4%，比裸模型高近 9 个百分点；谷歌同步开源的 DeepSearchQA 测试达 66.1%。

Interactions API 是谷歌为智能体时代设计的统一接口，支持服务端状态管理和后台长任务执行，已集成至 Agent Development Kit 和 Agent2Agent 协议。Deep Research 近期将接入 Google Search、NotebookLM、Google Finance 和 Gemini App，企业版 Vertex AI 也在计划中。金融机构已用于尽调自动化，生物科技公司 Axiom Bio 则用于加速药物发现文献综述。

10｜《时代》2025 年度人物：八位 “AI 建筑师” 登上封面

12 月 11 日，《时代》杂志宣布 2025 年度人物为 “AI 建筑师”（Architects of AI），共 8 人登上封面：英伟达 CEO 黄仁勋、Meta CEO 扎克伯格、xAI 的马斯克、OpenAI CEO Sam Altman、AMD CEO 苏姿丰、DeepMind CEO Demis Hassabis、Anthropic CEO Dario Amodei，以及斯坦福人类中心 AI 研究所联合主任、World Labs 创始人李飞飞。其中 5 位已是亿万富翁，合计身家约 8700 亿美元，大部分财富在过去三年 AI 热潮中积累。

杂志推出两款封面：一款由 Jason Seiler 创作，致敬 1932 年经典照片 “摩天大楼上的午餐”，将建筑工人换成科技领袖；另一款由 Peter Crowther 绘制，展示 AI 字母建筑工地。主编 Sam Jacobs 表示，2025 年是 AI 从 “讨论如何创造” 转向 “竞相部署” 的一年，对社会影响深远。杂志同时采访了软银 CEO 孙正义和百度 CEO 李彦宏。实体杂志 12 月 19 日上架。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/54.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

10月22日谷歌Gemini3鸽了OpenAI也翻车了

< <上一篇

ChatGPT被拉下神坛谷歌Gemini只用了这一招

下一篇>>

搜索内容

GPT52正式发布谷歌DeepResearch智能体上线智谱开源杀疯了AIW

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章