腾讯混元击败谷歌登顶蚂蚁开源万亿模型ChatGPT转型AI操作系统AIWeek

📢 本周 AI 快讯 | 1 分钟速览🚀

1️⃣ 🥇 腾讯混元登顶全球第一 : 混元图像 3.0 在 LMArena 文生图榜单超越谷歌 Nano Banana ,80B 参数规模,基于统一自回归框架,已完全开源。

2️⃣ 🐜 蚂蚁开源万亿模型 : Ling-1T 发布,MoE 架构总参数 1T,AIME 25 数学推理超越 Gemini-2.5-Pro ,效率更高,已在 Hugging Face 开源。

3️⃣ 💻 快手推出 CodeFlicker :AI 原生 IDE 工具对标 Cursor,支持全栈 Agent 编程、UI 设计稿自动转代码,深度集成 Figma 实现设计代码同步。

4️⃣ 🎯 ChatGPT 转型操作系统 :OpenAI DevDay 宣布周活用户达 8 亿,发布 Apps SDK、AgentKit 和正式版 Codex,目标从聊天工具进化为综合计算平台。

5️⃣ 💰 OpenAI 推广低价套餐 : ChatGPT Go 扩展至亚洲 16 国,月费不到 5 美元,提供扩展 GPT-5 访问权限,但无 Sora 等高级功能。

6️⃣ ⚡ OpenAI 签署万亿算力合同 :与英伟达、AMD 等达成协议,将获超 20 吉瓦算力,相当于 20 座核反应堆输出,采用"循环融资"结构。

7️⃣ 🖱️ 谷歌发布 Computer Use : Gemini 2.5 Computer Use 支持 13 种浏览器操作,AndroidWorld 准确率达 69.7%,已用于内部 UI 自动化测试。

8️⃣ 🎨 Gemini Flash Image 商用 : Gemini 2.5 Flash Image 正式开放,支持 10 种长宽比,每张图像 0.039 美元,内置 SynthID 隐形水印防伪。

9️⃣ 🎬 谷歌 Veo 3.1 曝光 :生成 8 秒 720p 视频自带配乐,预计支持最长 1 分钟 1080p 视频,原生音频与画面精确同步,剑指 OpenAI。

🔟 🤖 Figure 03 面向家庭 :第三代人形机器人可折衣服、洗碗,基于 Helix AI 模型,年产能 1.2 万台,目标 2026 年进入部分家庭,预计售价 2 万美元。

01|腾讯混元图像 3.0 登顶 LMArena 榜首,超越 Nano Banana

大模型竞技场 LMArena 最新文生图榜单显示, 混元图像 3.0 在全球 26 个大模型中位列第一,超越谷歌 Nano Banana 和字节 Seedream 4.0 ,同时在综合榜单和开源榜单双双登顶。该结果基于全球用户的匿名盲测投票,LMArena 是由美国加州大学伯克利分校推出的 AI 模型评估平台,采用人类真实偏好的盲测机制。

小火箭shadowrocket

混元图像 3.0 于 9 月 28 日发布,是首个工业级原生多模态生图模型,参数规模 80B,推理时每个 token 激活 13B 参数。模型采用统一的自回归框架整合多模态理解与生成能力,摒弃传统 DiT 架构,基于 Hunyuan-A13B 多模态基座,结合 MoE 架构与 Transfusion 方法构建。训练数据包含 50 亿图文对、视频帧和 600 万亿 token 文本语料。模型支持复杂文本渲染、漫画表情包生成和科普插画创作,后续将上线图生图、图像编辑和多轮交互功能。现已在腾讯混元官网开放体验,并在 GitHub 和 Hugging Face 完全开源。

02|蚂蚁开源万亿参数模型 Ling-1T,数学推理超越 Gemini 2.5 Pro

10 月 9 日,蚂蚁集团发布并开源万亿参数通用语言模型 Ling-1T ,这是 Ling 2.0 系列首款旗舰模型,也是蚂蚁迄今推出规模最大、能力最强的非思考大模型。在竞赛数学榜单 AIME 25 上, Ling-1T 以平均 4000+ Token 消耗达到 70.42% 准确率,超越消耗 5000+ Token、准确率 70.10% 的 Gemini-2.5-Pro ,展现更高效率。模型采用 MoE 架构,总参数 1T、激活参数 50B,支持 128K 上下文。

小火箭shadowrocket

Ling-1T 在 20T+ tokens 高质量语料上完成预训练,通过演进式思维链(Evo-CoT)提升推理能力。全程采用 FP8 混合精度训练,是目前最大规模 FP8 训练基座模型,训练提速 15%+。团队提出 LPO 方法,以句子为粒度优化策略,提升训练稳定性。在前端能力基准 ArtifactsBench 上得分 59.31,位居开源模型榜首。蚂蚁还在训练万亿参数深度思考模型 Ring-1T,已于 9 月 30 日开源 preview 版。模型已在 Hugging Face 开源,并提供 API 接口。

03|快手推出 AI 原生 IDE 工具 CodeFlicker,对标 Cursor

10 月 9 日,快手推出 AI 原生集成开发环境工具 CodeFlicker ,支持 AI 问答、代码自动补全和基于 Agent 的 AI 编程功能,可帮助程序员自动化完成开发任务,在部分项目中实现端到端开发。该工具提供 “Jam” 和 “Duet” 两种模式:Jam 模式主打沉浸式编程,支持自然语言描述需求自动生成代码;Duet 模式面向企业级需求,提供实时协作、版本控制和安全审计。

小火箭shadowrocket

核心能力是全栈 Agent 编程。内置 AI Agent 能理解整个代码库,输入“重构用户认证模块”后可自动分析依赖关系、生成任务清单并标注风险点。支持多模态交互,可将 UI 设计稿拖入编辑器自动转化为带注释的 React 组件,并深度集成 Figma,设计文件修改后前端代码自动同步更新。通过 MCP 平台灵活集成不同数据源、工具和服务,拓宽应用场景。该工具直接对标 GitHub Copilot 和 Cursor,并提供电商插件模板库,支持快手商家小程序开发。官网已上线预览页面。

04|OpenAI DevDay 2025:ChatGPT 从聊天工具转型“操作系统”

10 月 6 日,OpenAI CEO Sam Altman 在 DevDay 2025 开发者大会上宣布,ChatGPT 周活跃用户已达 8 亿,较 8 月的 7 亿增长 1 亿,相比 3 月底的 5 亿实现翻倍。平台目前拥有 400 万开发者,API 每分钟处理超 60 亿 token。大会核心战略是将 ChatGPT 从聊天工具转型为综合计算平台,Altman 表示目标是从“可以问任何问题的系统”进化为“可以让 AI 为你做任何事的系统”。

小火箭shadowrocket

大会发布三大核心工具:

Apps SDK:允许开发者在 ChatGPT 内构建交互式应用,首批合作伙伴包括 Spotify、Zillow、Canva、Coursera、Expedia 等超过 12 家公司;

AgentKit:提供完整 AI 智能体开发工具链,包含可视化 Agent Builder、可嵌入的 ChatKit 聊天界面、Connector Registry 数据连接中心和增强评估系统;

正式版 Codex:OpenAI 工程师使用 Codex 后每周完成的 PR 数量增长 70%。

现场演示中,工程师 Christina Huang 使用 AgentKit 在 8 分钟内完成智能体搭建。 GPT-5 Pro API 同步开放。

05|OpenAI 推广 5 美元低价套餐 ChatGPT Go,扩展至亚洲 16 国

据 TechCrunch 报道,OpenAI 正将月费不到 5 美元的 ChatGPT Go 订阅服务扩展至亚洲 16 个国家和地区,包括阿富汗、孟加拉国、不丹、文莱、柬埔寨、老挝、马来西亚、马尔代夫、缅甸、尼泊尔、巴基斯坦、菲律宾、斯里兰卡、泰国、东帝汶和越南。该套餐定价约为标准 Plus 套餐(20 美元/月)的四分之一,针对购买力较低的新兴市场推出。

小火箭shadowrocket

相比 20 美元的 Plus 版, ChatGPT Go 提供扩展的 GPT-5 访问权限、图像生成、文件上传和数据分析功能,记忆长度是免费版的 2 倍,每日消息和图像生成限额更高。但 Go 版无法访问 GPT-4o 等旧版模型,也不包含 Sora 视频生成、深度研究和 Agent 模式等高级功能。

06|OpenAI 签署万亿美元算力合同,规模相当于 20 座核反应堆

OpenAI 近期签署了总价值约 1 万亿美元的 AI 基础设施合同,与英伟达、AMD、甲骨文和 CoreWeave 等公司达成协议,将获得超过 20 吉瓦算力,相当于 20 座核反应堆的输出功率。英伟达将分阶段向 OpenAI 投资最高 1000 亿美元,部署至少 10 吉瓦数据中心,首个 1 吉瓦将于 2026 年下半年在 Vera Rubin 平台上线。AMD 合作协议涉及 6 吉瓦 Instinct GPU 部署,预计为 AMD 带来数百亿美元收入。

小火箭shadowrocket

OpenAI 估算每吉瓦 AI 算力成本约 500 亿美元,总投入接近 1 万亿美元。但公司目前年收入仅约 120 亿美元,今年可能亏损 100 亿美元,远未达到万亿级合同所需财力。这些协议采用“循环融资”结构——英伟达投资 OpenAI,OpenAI 再用资金购买英伟达芯片;AMD 则授予 OpenAI 最高 10% 股权以换取订单,引发业界对 AI 泡沫的担忧。CEO Sam Altman 表示将在未来数月公布更多合作,称“盈利不在前 10 优先级”。

07|谷歌发布 Gemini 2.5 Computer Use:支持 13 种浏览器操作的 AI 模型

10 月 7 日,谷歌发布 Gemini 2.5 Computer Use 模型,并通过 Gemini API 向开发者开放。这是基于 Gemini 2.5 Pro 的专用模型,能够与用户界面交互并执行实际操作。模型支持 13 种预定义浏览器操作,包括点击、输入、滚动、拖拽、导航、搜索和快捷键组合等。工作流程采用循环机制:用户发送请求和屏幕截图,模型分析后返回操作指令,客户端代码执行后反馈新截图,直至任务完成。

小火箭shadowrocket

在 AndroidWorld 移动基准测试中,该模型准确率达 69.7%;在 Online-Mind2Web 网页控制测试中,通过率约 65.7%,延迟处于领先水平。 Gemini 2.5 Computer Use 已为 Project Mariner 和搜索 AI Mode 的代理功能提供支持,谷歌内部用于 UI 自动化测试,修复了超过 60% 的失败测试用例。模型内置安全机制,对购买等高风险操作需用户确认。目前主要优化浏览器环境,尚未支持桌面级操作系统控制。现已通过 Google AI Studio 和 Vertex AI 开放公测,定价与 Gemini 2.5 Pro 相同。

08|谷歌图像生成模型 Gemini 2.5 Flash Image 正式商用,支持 10 种长宽比

谷歌宣布代号 “Nano Banana” 的图像生成模型 Gemini 2.5 Flash Image 正式进入生产环境并提供商业授权,通过 Gemini API、Google AI Studio 和 Vertex AI 向开发者及企业用户开放。新增支持 10 种长宽比,可适配从电影级横向到社交媒体竖向等多种格式,并新增纯图像输出模式。该模型可实现多图融合、角色一致性保持、自然语言精准编辑等功能。

小火箭shadowrocket

该模型今年 8 月在 LMArena 匿名测试平台以 “nano-banana” 代号登顶图像编辑榜首,引发广泛关注。定价为每张图像 0.039 美元,按 token 计费为每百万输出 token 30 美元。谷歌为所有生成内容加入可见水印和 SynthID 隐形加密水印,以防止深度伪造。Google AI Studio 的“构建模式”支持用户通过单个提示词快速创建和部署自定义 AI 应用。

09|谷歌 Veo 3.1 首批样本曝光:8 秒 720p 自带配乐,剑指 OpenAI

10 月 10 日,科技媒体 TestingCatalog 曝光了谷歌新一代文生视频模型 Veo 3.1 的首批真实生成样本,能够生成时长 8 秒、分辨率为 720p 且包含音轨的视频片段。实测对比显示, Veo 3.1 在“赛博朋克黑客机器人”等基准测试提示词上明显优于 Veo 3 ,支持多镜头场景生成、角色一致性保持和电影预设功能。

小火箭shadowrocket

该模型已在谷歌 Vertex AI 平台和 Google Vids 中出现代码痕迹,第三方平台 Higgsfield AI 也开放了等候名单。相比前代 8 秒限制, Veo 3.1 预计支持最长 30 秒甚至 1 分钟的 1080p 视频生成,原生音频生成功能经过改进,能将音效与画面动作精确同步。这直接对标 OpenAI 9 月底发布的新模型,后者同样支持同步对话和音效,API 定价为 10 秒 720p 视频 1 美元。

10|Figure 03 发布:首款面向家庭的量产人形机器人,能折衣服、洗碗

人形机器人公司 Figure AI 于 10 月 9 日发布第三代产品 Figure 03 ,定位为可在家庭和工业环境大规模部署的通用机器人。基于自研 Helix 视觉-语言-动作 AI 模型,该机器人已演示折叠毛巾、装载洗碗机等家务能力,手部内置超灵敏触觉传感器,可检测低至 3 克的压力。视觉系统帧率翻倍、延迟降至四分之一、视野扩大 60%,支持通过脚部线圈进行 2kW 无线充电。

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/115.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>