GPT52正式发布谷歌DeepResearch智能体上线智谱开源杀疯了AIW
📢 本周 AI 快讯 | 1 分钟速览🚀
1️⃣ 🔮 智谱开源 GLM-4.6V :首个原生支持 Function Call 的多模态模型,上下文 128K,API 降价 50%,9B Flash 版完全免费。
2️⃣ 📱 智谱开源 AutoGLM :业内首个完整开源的 Phone Use 方案,支持微信、淘宝等 50+ 中文 App,可完成外卖点单、机票预订等复杂流程。
3️⃣ 🎙️ 智谱开源 GLM-TTS :3 秒克隆音色,字错误率 0.89% 达开源 SOTA,支持方言,API 价格仅为同类 1/3。
4️⃣ 🗣️ 阿里 Qwen3-Omni-Flash 升级 :音色扩展至 49 种,首次开放人设自定义,API 定价输入 1 元/百万 token。
5️⃣ 🚀 OpenAI 发布 GPT-5.2 :在 GDPval 基准中 70.9% 任务超越人类专家,上下文扩至 40 万 token,API 涨价约 40%。
6️⃣ 🔞 ChatGPT 成人模式 :预计 2026 年 Q1 上线,需通过年龄验证,将开放此前受限内容。
7️⃣ 🏰 迪士尼投资 OpenAI 10 亿美元 :200+ 角色入驻 Sora,用户可用米奇、钢铁侠等生成短视频,精选作品将登陆 Disney+。
8️⃣ 🎨 Adobe 三件套入驻 ChatGPT :Photoshop、Acrobat、Express 原生集成,对话即可修图编辑 PDF,面向 8 亿周活用户免费开放。
9️⃣ 🔬 谷歌开放 Deep Research API :基于 Gemini 3 Pro ,定价仅 2 美元/百万 token,支持多步搜索和文档分析。
1️⃣0️⃣ 📰 《时代》2025 年度人物 :黄仁勋、扎克伯格、马斯克、Altman、苏姿丰、Hassabis、Amodei、李飞飞 8 位“AI 建筑师”登上封面。
01|智谱开源 GLM-4.6V:首个原生工具调用的多模态模型,API 降价 50%
12 月 8 日,智谱 AI 开源 GLM-4.6V 系列多模态大模型,包括 106B 参数(12B 激活)的云端版和 9B 参数的轻量版 Flash。核心突破是首次将 Function Call 能力原生融入视觉模型架构——图像、截图、文档可直接作为工具参数输入,模型也能理解工具返回的图表、网页截图等多模态结果,打通 “视觉感知→可执行行动” 闭环。上下文窗口扩展至 128k token,在 MMBench、MathVista、OCRBench 等 30+ 基准上达到同参数规模 SOTA:9B 版超越 Qwen3-VL-8B ,106B 版比肩 2 倍参数的 Qwen3-VL-235B 。
API 价格较 GLM-4.5V 降价 50%,输入 1 元/百万 token、输出 3 元/百万 token,Flash 版完全免费。典型应用包括智能图文混排(上传论文自动生成公众号文章)、识图购物(跨平台比价生成导购表格)、前端复刻(截图转可运行网页代码并支持多轮视觉交互修改)。模型权重、推理代码、示例工程已上线 GitHub 和 Hugging Face,MIT 协议允许商业使用。智谱同日开源了手机操作智能体 AutoGLM。
02|智谱开源 AutoGLM:让每台手机都能成为 AI 手机
12 月 9 日,智谱开源手机操作智能体 AutoGLM,这是业内首个完整开源的 Phone Use 方案。模型 AutoGLM-Phone-9B 基于视觉大模型理解屏幕内容,通过 ADB 指令执行点击、滑动、输入等操作,已支持微信、淘宝、抖音、美团等 50+ 高频中文应用,可稳定完成外卖点单、机票预订等长达数十步的复杂流程。开源内容包括训练好的模型、Phone Use 能力框架、可直接运行的 Demo 和 Android 适配层。
项目从 2023 年 4 月启动研发,历时 32 个月。与字节 “豆包手机助手” 的系统级权限方案不同,AutoGLM 采用视觉理解 + ADB 的开源架构,主要在云端虚拟手机环境运行,并内置敏感操作分级确认机制——常规操作自动执行,支付转账需用户确认。开源意味着硬件厂商和开发者可以快速复现 AI 手机功能,有望打破当前少数厂商主导的格局。
03|智谱开源 GLM-TTS:3 秒克隆音色,字错误率 0.89% 达开源 SOTA
12 月 11 日,智谱开源工业级语音合成系统 GLM-TTS ,模型权重已上线 Hugging Face 和 ModelScope。核心能力是 3 秒语音样本即可克隆说话人音色、节奏和断句习惯,支持方言(如四川话)。技术上采用两阶段生成架构(Text-to-Token + Token-to-Wav),并引入基于 GRPO 的多奖励强化学习,在 seed-tts-eval 中文测试集上字符错误率(CER)降至 0.89%,达开源 SOTA。训练效率极高:仅用 10 万小时数据(远低于行业主流),单机 4 天完成预训练,LoRA 音色定制单机 1 天。
智谱强调这不是 “好听的 Demo”,而是面向生产的系统。已验证场景包括教育评测(适配多音字、生僻字、数学公式)、电子书有声内容(多角色多情绪)、智能客服(克制专业语气)。API 价格仅为同类产品的约 1/3,可通过智谱开放平台、智谱清言、Z.ai 调用或本地部署。
04|阿里 Qwen3-Omni-Flash 升级:49 种音色,人设自定义,API 定价 1 元起
阿里 Qwen 团队 12 月 9 日发布 Qwen3-Omni-Flash 升级版,在全模态交互基础上重点强化语音体验。新版本支持 49 种音色——较前代 17 种扩展近 3 倍,首次开放 System Prompt 自定义,可设置 “甜妹”“御姐”“日系” 等人设风格,语速、停顿与韵律自适应调节。性能方面,代码生成(LiveCodeBench)提升 9.3 分,逻辑推理(ZebraLogic)+5.6,多学科视觉问答(MMMU)+4.7。
模型支持 119 种文本语言、19 种语音识别和 10 种语音合成语言,API 定价输入 1 元/百万 token、输出 3 元/百万 token。已在通义千问 App 集成 Demo,支持上传 30 秒视频实时生成带画面口播——对直播、短视频等场景相当于把配音成本打到接近零。
05|GPT-5.2 发布:职业任务超人类专家,API 涨价 40%
12 月 12 日凌晨,OpenAI 发布 GPT-5.2 ,距前代 GPT-5.1 仅隔三周。新模型分三档:Instant 主打快速响应,Thinking 擅长代码与推理,Pro 面向高精度场景。在 OpenAI 自研的 GDPval 基准测试中(覆盖 44 种职业的知识工作任务), GPT-5.2 Thinking 在 70.9% 的任务上达到或超越人类专家水平,而 GPT-5 仅为 38.8%, Gemini 3 Pro 为 53.3%, Claude Opus 4.5 为 59.6%。上下文窗口扩展至 40 万 token,幻觉率比 GPT-5.1 降低 38%。
编程能力是本次升级重点。SWE-Bench Pro 得分 55.6%,领先 Gemini 3 Pro 的 43.3% 和 Claude Opus 4.5 的 52.0%;GPQA Diamond 科学推理达 92.4%,略超 Gemini 3 Pro 的 91.9%。JetBrains、Warp、Augment Code 等编程工具厂商参与内测,反馈称在交互式编码、代码审查、Bug 定位等场景达到 “业界最佳”。不过 SWE-bench Verified 上,Anthropic 的 Claude Opus 4.5 仍保持领先。
API 定价上涨约 40%,输入价格升至 1.75 美元/百万 token。ChatGPT 付费用户今日起逐步开放,API 即时可用, GPT-5.1 将作为旧版保留三个月。发布时机敏感——上周 Sam Altman 刚宣布 “Code Red” 应对 Gemini 3 冲击,但 OpenAI 应用负责人 Fidji Simo 强调该模型已研发数月,并非临时赶工。
06|ChatGPT 成人模式明年 Q1 上线,需通过年龄验证
OpenAI 应用负责人 Fidji Simo 在 GPT-5.2 发布会上确认,ChatGPT “成人模式” 预计 2026 年第一季度推出。该功能将允许经过年龄验证的成年用户访问此前被限制的内容,包括色情文字和更拟人化的对话风格。Sam Altman 此前在 10 月曾预告这一功能,称其体现 “把成年人当成年人对待” 的原则。
上线前提是年龄预测系统过关。OpenAI 正在部分国家测试基于用户行为的年龄识别模型,目标是准确区分未成年人与成年人,避免误判。Simo 表示,宁可让成年人被误识为未成年(默认进入限制模式),也不能让未成年人接触成人内容。此举是对 Grok 等已开放 NSFW 内容的竞品的回应,但也引发关于用户对 AI 产生情感依赖的担忧——今年早些时候的研究显示,与聊天机器人建立情感联系的用户心理困扰风险更高。
07|迪士尼投资 OpenAI 10 亿美元,200+ 角色入驻 Sora
12 月 11 日,迪士尼与 OpenAI 签署三年授权协议,成为 Sora 首个重大内容授权方。用户可使用超过 200 个迪士尼、漫威、皮克斯、星球大战的动画及虚拟角色(米奇、艾莎、钢铁侠、达斯·维德等)在 Sora 上生成短视频,ChatGPT Images 也可生成相关图片。协议明确不包含任何真人演员的肖像或配音——即可以生成伍迪形象,但没有汤姆·汉克斯的声音。精选用户创作内容将登陆 Disney+ 流媒体平台,预计 2026 年初上线。
迪士尼同时向 OpenAI 投资 10 亿美元并获得额外认股权证,还将成为 OpenAI 大客户:为员工部署 ChatGPT,并利用 API 为 Disney+ 开发新产品。双方成立联合指导委员会监控内容合规。此举引发争议——美国编剧工会(WGA)批评迪士尼此举 “似乎认可了 OpenAI 对创作者作品的盗用”;儿童权益组织 Fairplay 则指责迪士尼用角色引诱儿童使用 Sora。值得注意的是,迪士尼同日向谷歌发出停止侵权函,指控其大规模侵犯迪士尼版权——一边合作、一边诉讼,策略耐人寻味。
08|Adobe 三件套入驻 ChatGPT:对话即可修图编辑 PDF
12 月 10 日,Adobe 宣布将 Photoshop、Acrobat、Adobe Express 原生集成至 ChatGPT,面向全球 8 亿周活用户免费开放。用户在对话框输入 “Adobe Photoshop,帮我模糊这张图的背景” 即可调用相应工具,无需离开聊天界面。Photoshop 支持局部编辑、背景移除、曝光调整及多种滤镜效果,并提供滑块微调;Adobe Express 可从模板库生成生日卡片、海报等设计稿并添加动画;Acrobat 支持合并 PDF、提取表格、编辑文本等操作。需要更精细控制时,点击 “Open in Photoshop” 可无缝跳转至网页版完整应用,保留所有调整图层。
该集成基于 Model Context Protocol(MCP)构建,是 OpenAI 10 月推出第三方应用框架(首批包括 Canva、Spotify、Figma)后最重量级的合作。目前支持桌面端、网页端和 iOS,Android 暂仅支持 Adobe Express,Photoshop 和 Acrobat 即将上线。使用免费,但生成 PDF 或插图需登录 Adobe 账号。Adobe 称此举旨在让不熟悉专业工具的用户也能轻松完成创意工作,同时为完整版应用导流。
09|谷歌开放 Deep Research API,定价仅 2 美元/百万 token
12 月 12 日,谷歌发布升级版 Gemini Deep Research 智能体,基于 Gemini 3 Pro 构建,首次通过全新 Interactions API 向开发者开放。该智能体可自主执行多步骤网络搜索、分析用户上传的文档(PDF、CSV、Word),生成带详细引用的结构化报告,支持 JSON 输出。API 定价 2 美元/百万输入 token,远低于 OpenAI 深度研究工具的订阅门槛。基准测试上,Deep Research 在 “人类最后的考试”(HLE)达 46.4%,比裸模型高近 9 个百分点;谷歌同步开源的 DeepSearchQA 测试达 66.1%。
Interactions API 是谷歌为智能体时代设计的统一接口,支持服务端状态管理和后台长任务执行,已集成至 Agent Development Kit 和 Agent2Agent 协议。Deep Research 近期将接入 Google Search、NotebookLM、Google Finance 和 Gemini App,企业版 Vertex AI 也在计划中。金融机构已用于尽调自动化,生物科技公司 Axiom Bio 则用于加速药物发现文献综述。
10|《时代》2025 年度人物:八位 “AI 建筑师” 登上封面
12 月 11 日,《时代》杂志宣布 2025 年度人物为 “AI 建筑师”(Architects of AI),共 8 人登上封面:英伟达 CEO 黄仁勋、Meta CEO 扎克伯格、xAI 的马斯克、OpenAI CEO Sam Altman、AMD CEO 苏姿丰、DeepMind CEO Demis Hassabis、Anthropic CEO Dario Amodei,以及斯坦福人类中心 AI 研究所联合主任、World Labs 创始人李飞飞。其中 5 位已是亿万富翁,合计身家约 8700 亿美元,大部分财富在过去三年 AI 热潮中积累。
杂志推出两款封面:一款由 Jason Seiler 创作,致敬 1932 年经典照片 “摩天大楼上的午餐”,将建筑工人换成科技领袖;另一款由 Peter Crowther 绘制,展示 AI 字母建筑工地。主编 Sam Jacobs 表示,2025 年是 AI 从 “讨论如何创造” 转向 “竞相部署” 的一年,对社会影响深远。杂志同时采访了软银 CEO 孙正义和百度 CEO 李彦宏。实体杂志 12 月 19 日上架。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/54.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论