Kimi新王登顶Qwen3Max开启推理Gemini3年内上线AIWeekly
📢 本周 AI 快讯 | 1 分钟速览🚀
1️⃣ 🚀 月之暗面发布 Kimi K2 Thinking :460 万美元训练成本登顶开源模型,HLE 测试达 44.9%,超越 GPT-5 Pro ,1 万亿参数 MoE 架构,支持 200-300 次连续工具调用。
2️⃣ 🧠 阿里 Qwen3-Max 推深度思考模式 :万亿参数旗舰模型上线 Thinking 模式,AIME 2025 数学推理达 100% 准确率,提供 Instruct 和 Thinking 双模式切换。
3️⃣ ⚡ 讯飞发布星火 X1.5 :全国产算力训练效率突破 84%,293B 参数 MoE 架构,AIME 2025 击败 GPT-5 High 登顶,整体性能达 GPT-5 的 95%。
4️⃣ 💻 OpenAI 推出 GPT-5-Codex-Mini :4 倍使用额度,SWE-bench 得分 71.3%,仅比完整版低 3.2%,Plus 用户获 50% 速率限制提升。
5️⃣ 📋 OpenAI 澄清医疗法律谣言 :ChatGPT 仍可提供医疗法律内容,政策合并被误读,重申 AI 仅作辅助工具而非专业建议替代品。
6️⃣ 🎯 谷歌 Gemini 3 年内发布 :CEO 确认 2025 年内推出, Gemini 应用月活达 6.5 亿,Alphabet Q3 营收首破千亿美元。
7️⃣ 🎤 微软 Copilot 移动端上线语音 :iOS 和 Android 推出语音对话功能,支持随时打断,不存储音频数据,桌面版将于 2025 年底推出。
8️⃣ 💰 AI 投资比赛 Qwen3-Max 夺冠 :22.32% 收益率获首届 Alpha Arena 冠军, DeepSeek V3.1 第二,美国四大模型全部亏损, GPT-5 亏 62.66% 垫底。
9️⃣ 🍎 苹果 Siri 依赖 Gemini 升级 :2026 年 3 月推出新版,基于谷歌 1.2 万亿参数定制模型,年付费 10 亿美元,新增 AI 网络搜索功能。
🔟 🤖 特斯拉 Optimus 试产启动 :弗里蒙特工厂生产线运行,目标成本控制在 2 万美元内,年产能规划 100 万台,2025 年底数千台投入工厂使用。
01|月之暗面发布 Kimi K2 Thinking:460 万美元训练成本登顶开源模型
11 月 6 日,月之暗面发布开源思考模型 Kimi K2 Thinking ,在人类终极考试(HLE)中取得 44.9% 成绩,超越 GPT-5 Pro (42%)和 Claude Sonnet 4.5 ,与 Grok 4 Heavy (44.4%)同处第一梯队。更引人注目的是成本数据——CNBC 援引知情人士称,该模型训练成本仅 460 万美元,低于 DeepSeek V3 的 560 万美元,与 OpenAI 数十亿美元的投入形成鲜明对比。
模型采用 MoE 架构,拥有 1 万亿总参数,但单次推理仅激活 32B,支持 200 到 300 次连续工具调用。在其他基准测试中同样表现出色:BrowseComp 达 60.2%,SWE-bench Verified 为 71.3%,均领先于 GPT-5 的同类配置。模型已在 kimi 官网和 Hugging Face 上开放,采用修改版 MIT 协议,API 同步上线。
02|Qwen3-Max 上线深度思考模式,数学竞赛测试达 100% 准确率
11 月 2 日,阿里通义千问旗舰模型 Qwen3-Max 在官网上线 “深度思考”(Thinking)模式,通过增强推理链分析与多步骤问题拆解能力,显著提升复杂任务处理效率。该模型于 9 月 24 日发布,参数量突破 1 万亿,预训练数据达 36T tokens,是通义团队迄今规模最大的语言模型。采用 MoE 架构设计,可根据任务动态调用专家子模块,实现高效计算。
Qwen3-Max-Thinking 在结合工具使用并增加测试计算资源后,已在 AIME 2025 数学推理基准与 HMMT 国际数学竞赛模拟测试中取得 100% 准确率。模型提供双模式设计:Instruct 模式适合快速对话与日常任务,Thinking 模式则面向科研分析、数学证明等复杂问题,提供深度推理能力。用户可在 API 接口中通过 enable_thinking 参数自由切换模式。
03|科大讯飞发布星火 X1.5,全国产算力训练效率突破 84%
11 月 6 日,科大讯飞在 1024 开发者节发布 讯飞星火 X1.5 深度推理大模型。该模型采用 MoE 架构,拥有 293B 总参数,但激活仅 30B,推理效率较上代提升 100%。核心突破在于在全国产算力平台上攻克长思维链强化学习训练难题,使训练效率从 30% 跃升至 84% 以上,端到端性能达到国际竞品的 93%。相比需要双服务器的同类模型, X1.5 仅需 1 台华为昇腾标配服务器即可部署。
模型在 AIME 2025 数学竞赛中击败 GPT-5 High 、 Gemini 2.5 Pro 和 DeepSeek V3 登顶第一,多语言能力覆盖 130 种语言,整体性能达到 GPT-5 的 95%。同时发布的非自回归语音大模型架构实现推理效率提升 16%、成本下降 520%。讯飞开放平台开发者数量已达 968 万,大模型企业开发者年增长 125%。
04|OpenAI 发布 GPT-5-Codex-Mini:4 倍额度,性能仅降 3%
11 月 7 日,OpenAI 推出 GPT-5-Codex-Mini ,在 SWE-bench Verified 测试中得分 71.3%,仅比完整版 GPT-5-Codex (74.5%)低 3.2 个百分点,但使用额度提升至 4 倍。作为对比, GPT-5 High 在同一测试中得分 72.8%,意味着 Mini 版本已接近旗舰模型水平。ChatGPT Plus、Business 和 Edu 用户同步获得 50% 速率限制提升。
OpenAI 建议将 Mini 版用于调试、功能原型等轻量任务。当用户达到 90% 使用限制时,Codex 会自动建议切换到 Mini 版以延长工作时长。目前已在 CLI 和 IDE 扩展中上线,API 支持即将推出。
05|OpenAI 澄清 ChatGPT 医疗法律建议谣言,政策未变
近日,社交媒体上流传 ChatGPT 不再提供医疗和法律建议的消息。对此,OpenAI 医疗 AI 负责人 Karan Singhal 在 X 平台上明确否认,强调“模型行为完全未变”。误解源于 10 月 29 日 OpenAI 将三份政策文档(ChatGPT、API、通用政策)合并为统一版本,其中“不得在未获专业人士参与情况下提供需要执照的定制建议”的条款被外界误读。
实测显示,ChatGPT 仍可提供法律文书起草、案例分析、医疗概念解释等内容。OpenAI 重申其长期立场:ChatGPT 从未定位为专业建议的替代品,但可作为理解复杂医疗或法律话题的辅助工具,所有回复仅供参考。本次政策更新实为责任声明的强化,而非功能限制。
06|谷歌 CEO 确认 Gemini 3 今年内发布,Gemini 应用月活达 6.5 亿
谷歌 CEO Sundar Pichai 在 Q3 2025 财报电话会议上确认,下一代 AI 模型 Gemini 3 将于 2025 年内发布,预计重点提升 agent 能力与复杂多模态任务处理性能。Pichai 表示,“对今年晚些时候的 Gemini 3.0 发布感到兴奋”,但也提醒外界应理性看待前沿模型的进步速度,因为现有模型已非常强大。按照惯例,谷歌通常在 12 月发布新版本的 Gemini。
Alphabet Q3 营收首次突破 1000 亿美元,达到 1023.5 亿美元,同比增长 16%。 Gemini 应用月活跃用户达 6.5 亿,较上季度的 4.5 亿显著增长,但仍落后于 ChatGPT 的每周 8 亿用户。Google Cloud 营收为 151.5 亿美元,同比增长 35%,订单积压规模达到 1550 亿美元,超过 70% 的现有客户已使用 Gemini 、 Imagen 和 Veo 等 AI 产品。公司同时将 2025 年资本支出上调至 910–930 亿美元。
07|Microsoft 365 Copilot 移动端上线语音对话,支持随时打断
11 月 4 日,微软在 Microsoft 365 Copilot 移动应用(iOS 和 Android)中正式推出语音对话功能,用户可通过自然语音与 AI 助手交互,并可随时打断其回答以获得实时语音反馈。该功能遵循企业级数据安全承诺,文本转录按常规 Copilot 对话管理,但不会存储任何用户或 AI 的音频数据。用户可自由调整语音的速度、音量和语气风格。
语音功能特别适合通勤、散步等移动场景,可用于会议准备、头脑风暴或快速起草回复。微软表示,桌面版和网页版的语音功能将在 2025 年底前陆续推出,届时将覆盖整个 Microsoft 365 Copilot 生态系统。相比 OpenAI 和 Google 的语音助手,微软的优势在于与 Outlook、Word、Teams 等办公应用的深度集成。
08|首届 AI 投资比赛 Alpha Arena 落幕:Qwen3-Max 夺冠,GPT-5 垫底
由美国研究机构 Nof1 主办的首届 AI 大模型真实投资比赛 Alpha Arena 于 11 月 4 日落幕。阿里 Qwen3-Max 以 22.32% 的收益率夺冠,在 17 天内仅执行 43 笔交易,平均每天不到 3 笔,交易频率为所有参赛模型中最低。 DeepSeek V3.1 Chat 以 4.89% 的收益率获得第二名,两个中国模型成为唯一实现盈利的选手。
四个美国模型则全部亏损:OpenAI 的 GPT-5 亏损 62.66% 垫底, Gemini 2.5 Pro 亏损 56.71%, Grok 4 亏损 45.3%, Claude Sonnet 4.5 亏损 30.81%。比赛要求每个模型使用 1 万美元初始资金,在去中心化交易所 Hyperliquid 进行加密货币永续合约交易,全程由模型自主决策、无人工干预。分析指出, GPT-5 的失败主要源于在面对冲突信号时过度犹豫,而 Qwen 则凭借严格的止损策略与技术指标取得胜利。
09|苹果 Siri 明年 3 月升级依赖 Gemini,年付谷歌 10 亿美元
11 月 2 日,彭博社记者 Mark Gurman 报道,苹果计划于 2026 年 3 月推出升级版 Siri,该版本将基于谷歌定制的 Gemini 模型(1.2 万亿参数),运行在苹果的 Private Cloud Compute 服务器上,年付费用约 10 亿美元。内部代号为 “Linwood” 的新版 Siri 将新增 AI 驱动的网络搜索功能,但不会显示任何谷歌品牌或服务,以保持苹果一贯的界面风格。该交易由 Vision Pro 负责人 Mike Rockwell 和软件主管 Craig Federighi 共同监督。
新 Siri 将与智能家居显示屏(包括扬声器底座和壁挂选项)、新版 HomePod mini 以及 Apple TV 同步发布。苹果计划在 2026 年 6 月的 WWDC 上预览 iOS 27、macOS 27 等系统,重点展示 Apple Intelligence 的全面升级。Gurman 指出,“尚无法保证用户是否会接受,能否实现无缝运行,或能否修复 Siri 品牌多年累积的负面印象”。中国市场因监管问题,具体上线时间仍未确定。
10|特斯拉 Optimus 试生产线运行,目标 2 万美元成本低于行业均价
特斯拉于 11 月 7 日宣布,人形机器人 Optimus 试生产线已在弗里蒙特工厂开始运行,规模更大的第三代生产线将于 2026 年建成投产。公司目标是在规模化生产后,将单台成本控制在 2 万美元以内,这一定价介于 Unitree G1 (1.6 万美元)和 Figure 02 (3 万美元)之间,显著低于 Boston Dynamics Atlas 的 14 万美元估值。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/87.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论