Kimi新王登顶Qwen3Max开启推理Gemini3年内上线AIWeekly

小火箭shadowrocket • 2026年1月12日 am8:12 • 小火箭

? 本周 AI 快讯 | 1 分钟速览?

1️⃣ ? 月之暗面发布 Kimi K2 Thinking ：460 万美元训练成本登顶开源模型，HLE 测试达 44.9%，超越 GPT-5 Pro ，1 万亿参数 MoE 架构，支持 200-300 次连续工具调用。

2️⃣ ? 阿里 Qwen3-Max 推深度思考模式：万亿参数旗舰模型上线 Thinking 模式，AIME 2025 数学推理达 100% 准确率，提供 Instruct 和 Thinking 双模式切换。

3️⃣ ⚡ 讯飞发布星火 X1.5 ：全国产算力训练效率突破 84%，293B 参数 MoE 架构，AIME 2025 击败 GPT-5 High 登顶，整体性能达 GPT-5 的 95%。

4️⃣ ? OpenAI 推出 GPT-5-Codex-Mini ：4 倍使用额度，SWE-bench 得分 71.3%，仅比完整版低 3.2%，Plus 用户获 50% 速率限制提升。

5️⃣ ? OpenAI 澄清医疗法律谣言：ChatGPT 仍可提供医疗法律内容，政策合并被误读，重申 AI 仅作辅助工具而非专业建议替代品。

6️⃣ ? 谷歌 Gemini 3 年内发布：CEO 确认 2025 年内推出， Gemini 应用月活达 6.5 亿，Alphabet Q3 营收首破千亿美元。

7️⃣ ? 微软 Copilot 移动端上线语音：iOS 和 Android 推出语音对话功能，支持随时打断，不存储音频数据，桌面版将于 2025 年底推出。

8️⃣ ? AI 投资比赛 Qwen3-Max 夺冠：22.32% 收益率获首届 Alpha Arena 冠军， DeepSeek V3.1 第二，美国四大模型全部亏损， GPT-5 亏 62.66% 垫底。

9️⃣ ? 苹果 Siri 依赖 Gemini 升级：2026 年 3 月推出新版，基于谷歌 1.2 万亿参数定制模型，年付费 10 亿美元，新增 AI 网络搜索功能。

? ? 特斯拉 Optimus 试产启动：弗里蒙特工厂生产线运行，目标成本控制在 2 万美元内，年产能规划 100 万台，2025 年底数千台投入工厂使用。

01｜月之暗面发布 Kimi K2 Thinking：460 万美元训练成本登顶开源模型

11 月 6 日，月之暗面发布开源思考模型 Kimi K2 Thinking ，在人类终极考试（HLE）中取得 44.9% 成绩，超越 GPT-5 Pro （42%）和 Claude Sonnet 4.5 ，与 Grok 4 Heavy （44.4%）同处第一梯队。更引人注目的是成本数据——CNBC 援引知情人士称，该模型训练成本仅 460 万美元，低于 DeepSeek V3 的 560 万美元，与 OpenAI 数十亿美元的投入形成鲜明对比。

模型采用 MoE 架构，拥有 1 万亿总参数，但单次推理仅激活 32B，支持 200 到 300 次连续工具调用。在其他基准测试中同样表现出色：BrowseComp 达 60.2%，SWE-bench Verified 为 71.3%，均领先于 GPT-5 的同类配置。模型已在 kimi 官网和 Hugging Face 上开放，采用修改版 MIT 协议，API 同步上线。

02｜Qwen3-Max 上线深度思考模式，数学竞赛测试达 100% 准确率

11 月 2 日，阿里通义千问旗舰模型 Qwen3-Max 在官网上线 “深度思考”（Thinking）模式，通过增强推理链分析与多步骤问题拆解能力，显著提升复杂任务处理效率。该模型于 9 月 24 日发布，参数量突破 1 万亿，预训练数据达 36T tokens，是通义团队迄今规模最大的语言模型。采用 MoE 架构设计，可根据任务动态调用专家子模块，实现高效计算。

Qwen3-Max-Thinking 在结合工具使用并增加测试计算资源后，已在 AIME 2025 数学推理基准与 HMMT 国际数学竞赛模拟测试中取得 100% 准确率。模型提供双模式设计：Instruct 模式适合快速对话与日常任务，Thinking 模式则面向科研分析、数学证明等复杂问题，提供深度推理能力。用户可在 API 接口中通过 enable_thinking 参数自由切换模式。

03｜科大讯飞发布星火 X1.5，全国产算力训练效率突破 84%

11 月 6 日，科大讯飞在 1024 开发者节发布讯飞星火 X1.5 深度推理大模型。该模型采用 MoE 架构，拥有 293B 总参数，但激活仅 30B，推理效率较上代提升 100%。核心突破在于在全国产算力平台上攻克长思维链强化学习训练难题，使训练效率从 30% 跃升至 84% 以上，端到端性能达到国际竞品的 93%。相比需要双服务器的同类模型， X1.5 仅需 1 台华为昇腾标配服务器即可部署。

模型在 AIME 2025 数学竞赛中击败 GPT-5 High 、 Gemini 2.5 Pro 和 DeepSeek V3 登顶第一，多语言能力覆盖 130 种语言，整体性能达到 GPT-5 的 95%。同时发布的非自回归语音大模型架构实现推理效率提升 16%、成本下降 520%。讯飞开放平台开发者数量已达 968 万，大模型企业开发者年增长 125%。

04｜OpenAI 发布 GPT-5-Codex-Mini：4 倍额度，性能仅降 3%

11 月 7 日，OpenAI 推出 GPT-5-Codex-Mini ，在 SWE-bench Verified 测试中得分 71.3%，仅比完整版 GPT-5-Codex （74.5%）低 3.2 个百分点，但使用额度提升至 4 倍。作为对比， GPT-5 High 在同一测试中得分 72.8%，意味着 Mini 版本已接近旗舰模型水平。ChatGPT Plus、Business 和 Edu 用户同步获得 50% 速率限制提升。

OpenAI 建议将 Mini 版用于调试、功能原型等轻量任务。当用户达到 90% 使用限制时，Codex 会自动建议切换到 Mini 版以延长工作时长。目前已在 CLI 和 IDE 扩展中上线，API 支持即将推出。

05｜OpenAI 澄清 ChatGPT 医疗法律建议谣言，政策未变

近日，社交媒体上流传 ChatGPT 不再提供医疗和法律建议的消息。对此，OpenAI 医疗 AI 负责人 Karan Singhal 在 X 平台上明确否认，强调“模型行为完全未变”。误解源于 10 月 29 日 OpenAI 将三份政策文档（ChatGPT、API、通用政策）合并为统一版本，其中“不得在未获专业人士参与情况下提供需要执照的定制建议”的条款被外界误读。

实测显示，ChatGPT 仍可提供法律文书起草、案例分析、医疗概念解释等内容。OpenAI 重申其长期立场：ChatGPT 从未定位为专业建议的替代品，但可作为理解复杂医疗或法律话题的辅助工具，所有回复仅供参考。本次政策更新实为责任声明的强化，而非功能限制。

06｜谷歌 CEO 确认 Gemini 3 今年内发布，Gemini 应用月活达 6.5 亿

谷歌 CEO Sundar Pichai 在 Q3 2025 财报电话会议上确认，下一代 AI 模型 Gemini 3 将于 2025 年内发布，预计重点提升 agent 能力与复杂多模态任务处理性能。Pichai 表示，“对今年晚些时候的 Gemini 3.0 发布感到兴奋”，但也提醒外界应理性看待前沿模型的进步速度，因为现有模型已非常强大。按照惯例，谷歌通常在 12 月发布新版本的 Gemini。

Alphabet Q3 营收首次突破 1000 亿美元，达到 1023.5 亿美元，同比增长 16%。 Gemini 应用月活跃用户达 6.5 亿，较上季度的 4.5 亿显著增长，但仍落后于 ChatGPT 的每周 8 亿用户。Google Cloud 营收为 151.5 亿美元，同比增长 35%，订单积压规模达到 1550 亿美元，超过 70% 的现有客户已使用 Gemini 、 Imagen 和 Veo 等 AI 产品。公司同时将 2025 年资本支出上调至 910–930 亿美元。

07｜Microsoft 365 Copilot 移动端上线语音对话，支持随时打断

11 月 4 日，微软在 Microsoft 365 Copilot 移动应用（iOS 和 Android）中正式推出语音对话功能，用户可通过自然语音与 AI 助手交互，并可随时打断其回答以获得实时语音反馈。该功能遵循企业级数据安全承诺，文本转录按常规 Copilot 对话管理，但不会存储任何用户或 AI 的音频数据。用户可自由调整语音的速度、音量和语气风格。

语音功能特别适合通勤、散步等移动场景，可用于会议准备、头脑风暴或快速起草回复。微软表示，桌面版和网页版的语音功能将在 2025 年底前陆续推出，届时将覆盖整个 Microsoft 365 Copilot 生态系统。相比 OpenAI 和 Google 的语音助手，微软的优势在于与 Outlook、Word、Teams 等办公应用的深度集成。

08｜首届 AI 投资比赛 Alpha Arena 落幕：Qwen3-Max 夺冠，GPT-5 垫底

由美国研究机构 Nof1 主办的首届 AI 大模型真实投资比赛 Alpha Arena 于 11 月 4 日落幕。阿里 Qwen3-Max 以 22.32% 的收益率夺冠，在 17 天内仅执行 43 笔交易，平均每天不到 3 笔，交易频率为所有参赛模型中最低。 DeepSeek V3.1 Chat 以 4.89% 的收益率获得第二名，两个中国模型成为唯一实现盈利的选手。

四个美国模型则全部亏损：OpenAI 的 GPT-5 亏损 62.66% 垫底， Gemini 2.5 Pro 亏损 56.71%， Grok 4 亏损 45.3%， Claude Sonnet 4.5 亏损 30.81%。比赛要求每个模型使用 1 万美元初始资金，在去中心化交易所 Hyperliquid 进行加密货币永续合约交易，全程由模型自主决策、无人工干预。分析指出， GPT-5 的失败主要源于在面对冲突信号时过度犹豫，而 Qwen 则凭借严格的止损策略与技术指标取得胜利。

09｜苹果 Siri 明年 3 月升级依赖 Gemini，年付谷歌 10 亿美元

11 月 2 日，彭博社记者 Mark Gurman 报道，苹果计划于 2026 年 3 月推出升级版 Siri，该版本将基于谷歌定制的 Gemini 模型（1.2 万亿参数），运行在苹果的 Private Cloud Compute 服务器上，年付费用约 10 亿美元。内部代号为 “Linwood” 的新版 Siri 将新增 AI 驱动的网络搜索功能，但不会显示任何谷歌品牌或服务，以保持苹果一贯的界面风格。该交易由 Vision Pro 负责人 Mike Rockwell 和软件主管 Craig Federighi 共同监督。

新 Siri 将与智能家居显示屏（包括扬声器底座和壁挂选项）、新版 HomePod mini 以及 Apple TV 同步发布。苹果计划在 2026 年 6 月的 WWDC 上预览 iOS 27、macOS 27 等系统，重点展示 Apple Intelligence 的全面升级。Gurman 指出，“尚无法保证用户是否会接受，能否实现无缝运行，或能否修复 Siri 品牌多年累积的负面印象”。中国市场因监管问题，具体上线时间仍未确定。

10｜特斯拉 Optimus 试生产线运行，目标 2 万美元成本低于行业均价

特斯拉于 11 月 7 日宣布，人形机器人 Optimus 试生产线已在弗里蒙特工厂开始运行，规模更大的第三代生产线将于 2026 年建成投产。公司目标是在规模化生产后，将单台成本控制在 2 万美元以内，这一定价介于 Unitree G1 （1.6 万美元）和 Figure 02 （3 万美元）之间，显著低于 Boston Dynamics Atlas 的 14 万美元估值。

版权声明：
作者：小火箭shadowrocket
链接：https://www.shadowrocket888.vip/87.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

小火箭小火箭下载小火箭加速小火箭加速器小火箭官网小火箭节点

二维码

白嫖最多20个月GPT4o和Claude35Sonnet的方法它来了

< <上一篇

GPT5疯狂刷屏CursorCopilot基准测试成绩真相来了

下一篇>>

搜索内容

Kimi新王登顶Qwen3Max开启推理Gemini3年内上线AIWeekly

取消回复

共有 0 条评论

小火箭高速节点推荐

标签

热门文章