DeepSeek新模型ChatGPTAtlas浏览器ClaudeCode网页版同周上线
📢 本周 AI 快讯 | 1 分钟速览🚀
1️⃣ 🔍 DeepSeek 开源 OCR 模型 : DeepSeek-OCR 仅 3B 参数,将 1000 字文档压缩为 100 个视觉 token,准确率达 97%。
2️⃣ 🌐 OpenAI 发布 ChatGPT Atlas 浏览器 :首款 AI 原生浏览器,内置 Ask ChatGPT 侧边栏,可直接总结网页、对比产品,依托 8 亿周活用户挑战 Chrome 霸主地位。
3️⃣ 💼 OpenAI 推出“公司知识”功能 :整合 Slack、Google Drive、GitHub 等 10+ 企业工具数据,基于 GPT-5 特殊训练版本,支持跨源搜索和原始链接引用。
4️⃣ 💻 Anthropic 发布 Claude Code 网页版 :无需终端即可编程,连接 GitHub 仓库自动创建 PR,年化收入超 5 亿美元,成为 Anthropic 增长最快产品线。
5️⃣ 🖥️ Claude Desktop 正式发布 :Mac 版支持截图捕获、窗口分享和 Caps Lock 语音对话,通过 MCP 协议连接本地工作区和数据库。
6️⃣ 🧠 Claude 记忆功能全面开放 :扩展至所有付费用户,自动记住工作偏好和项目细节,每个 Project 独立记忆空间,用户完全可控。
7️⃣ ⚡ Anthropic 获谷歌 100 万块 TPU :史上最大 TPU 交易,总算力 1GW 相当于 40 万块 H100,价值超 350 亿美元,训练能力提升 20 倍。
8️⃣ ✨ 谷歌 AI Studio 推出 Vibe Coding : Gemini 2.5 Pro 驱动,自然语言生成完整应用并一键部署,从描述到生成仅需 65 秒,完全免费。
9️⃣ 📚 谷歌发布 Google Skills 平台 :整合 3000 门 AI 课程,覆盖 Google Cloud、DeepMind 等内容,去年用户完成超 2600 万门课程认证。
01|DeepSeek 开源 3B 参数 OCR 模型:10 倍文本压缩,准确率 97%
10 月 20 日,DeepSeek 开源 DeepSeek-OCR 模型,通过“视觉优先”方法将 1000 字文档压缩为 100 个视觉 token,准确率达 97%——相比传统 OCR 需要的 6000+ token,压缩率提升 60 倍。模型仅 3B 参数,单块 A100 每天可处理 20 万页文档,是 Tesseract 等传统工具的 10 倍速度。项目采用 MIT 许可证,GitHub 24 小时获得 4000+ star。
技术突破在于“范式反转”:不再将图像转为文本 token,而是直接以视觉形式压缩。模型提供 5 种分辨率模式——最小 Tiny 模式仅需 64 个 token 处理标准页面,最大 Gundam 模式可动态组合处理复杂文档。在 Fox 基准测试中, DeepSeek-OCR 用不到 800 个 token 超越了需要 6000+ token 的 MinerU2.0 。训练数据覆盖 3000 万 PDF 页面和 100 种语言,包括中文古籍和手写体。
OpenAI 联合创始人 Andrej Karpathy 称其为“LLM 输入的正确方向”。该方法为突破上下文限制提供新思路——通过逐步降采样历史对话到低分辨率,可在保留关键信息同时节省 90% token。目前已可通过 Hugging Face 直接下载使用,国内开发者反馈在中文发票、合同识别上效果优于 PaddleOCR。
02|OpenAI 发布 ChatGPT Atlas 浏览器,借 8 亿用户基础挑战 Chrome
10 月 21 日,OpenAI 发布首款 AI 浏览器 ChatGPT Atlas ,目前仅支持 macOS,其他平台版本待发。产品面向全用户免费开放,依托 ChatGPT 8 亿周活用户基础切入浏览器市场——Chrome 目前占有率 73%,约 35 亿用户。CEO Sam Altman 称“标签页发明后浏览器再无创新”,瞄准 AI 原生交互重构浏览体验。
ChatGPT Atlas 的核心功能是“与浏览器对话”:内置 Ask ChatGPT 侧边栏可直接总结网页、对比产品、检查代码,无需切换标签;浏览器记忆功能(可选)让 ChatGPT 记住历史细节,用户可随时编辑删除;Agent 模式(Plus/Pro 用户预览)能执行多步骤任务,如根据菜谱自动添加食材到购物车。OpenAI 承诺默认不使用浏览内容训练模型。
OpenAI 此次发布的时机选择精准。Pew Research 数据显示 AI 摘要已使网页点击率下降 25%,苹果设备搜索量今年 4 月首次负增长。上周 Meta 关闭 WhatsApp 第三方机器人接入,凸显平台依赖风险。虽然 Perplexity 已于 7 月推出 Comet AI 浏览器,但 ChatGPT 的用户规模使其威胁更为显著。
03|OpenAI 推出“公司知识”功能,ChatGPT 可直接调取企业内部数据
10 月 23 日,OpenAI 为 ChatGPT Business、Enterprise 和 Edu 用户推出“公司知识”(Company Knowledge)功能,可整合 Slack、Google Drive、SharePoint、GitHub、Gmail、HubSpot 等 10 余款企业工具的内部数据。该功能基于 GPT-5 的特殊训练版本,能够跨多个数据源搜索并在回答中提供原始链接引用,COO Brad Lightcap 称这是“改变我使用 ChatGPT 工作方式的最大更新”。
功能内置企业级权限管理,仅访问用户已授权的内容,支持 SSO、加密传输和审计日志。目前需手动启用,且启用时无法同时使用网络搜索或图表生成(未来将改进)。OpenAI 计划陆续增加 Asana、GitLab Issues、ClickUp 等连接器,直接对标微软 Copilot 和 Google Workspace AI。该功能依赖多个海外企业服务,对使用这些工具的团队更有价值。
04|Anthropic 推出 Claude Code 网页版,支持浏览器直接编程
10 月 20 日,Anthropic 正式发布 Claude Code 网页版(研究预览阶段),面向 Pro(20 美元/月)和 Max(100-200 美元/月)用户开放。用户可通过 claude.ai/code 或 Claude iOS 应用访问,无需打开终端即可使用 AI 编程助手。核心功能包括:直接连接 GitHub 仓库、描述需求后 AI 自动编写代码、并行处理多个任务、实时查看进度,完成后自动创建 PR。该产品自 5 月正式推出以来用户增长 10 倍,目前年化收入超 5 亿美元,成为 Anthropic 增长最快的产品线。
所有任务运行在 Anthropic 管理的云端沙箱环境中,具备网络和文件系统隔离,通过安全代理处理 Git 交互。网页版特别适合处理 bug 积压、日常修复和并行开发任务,用户可配置自定义网络设置允许访问 npm 仓库以运行测试。虽然命令行界面仍是“大本营”,但网页和移动版本的推出标志着 Anthropic 试图让开发工具随处可用,与微软 GitHub Copilot、Cursor、Google 和 OpenAI 的编程工具形成直接竞争。
05|Claude 桌面客户端正式发布,Mac 版支持截图分享和语音输入
10 月 21 日,Anthropic 宣布 Claude Desktop 正式发布(GA 版本),支持 macOS 和 Windows 系统。Mac 版本新增三项核心功能:截图捕获、点击窗口直接分享上下文,以及按 Caps Lock 键启动语音对话。此前该应用一直处于测试阶段,此次正式发布标志着功能和稳定性达到生产级标准。
应用采用 Electron 框架构建,提供全局快捷键唤醒(Mac 为 Option+Space,Windows 为 Ctrl+Alt+Space)、文件拖拽上传、与本地工作区同步等功能。通过 Desktop Extensions 和 MCP(Model Context Protocol)协议,用户可连接代码编辑器、本地文件系统和数据库。企业用户可使用 MSIX(Windows)和 PKG(Mac)安装包进行标准化部署,支持 SSO 单点登录和版本更新控制。目前部分功能(窗口分享、语音输入)仅限 Mac 版本,Windows 版本功能路线图尚未公布。
06|Claude 自动记忆功能扩展至所有付费用户,可跨会话保留上下文
Anthropic 于 10 月 23 日宣布将 Claude 的自动记忆功能扩展至所有付费用户,Max 用户立即可用,Pro 用户将在未来几天内获得访问权限。该功能此前于 9 月向 Team 和 Enterprise 用户开放,现在完成向个人付费用户的覆盖。Claude 现可自动记住用户的工作偏好、项目细节和过往对话,无需每次重新解释背景,CPO Mike Krieger 表示这是“朝着理解完整工作背景并自动适应的目标前进”。
功能设计强调透明和控制权。用户可完整查看 Claude 记住的内容,通过自然对话编辑或删除记忆,每个 Project 拥有独立的记忆空间以隔离工作和个人对话。Anthropic 表示在推出前进行了广泛的安全测试,确保记忆功能不会强化有害对话模式或被用于绕过安全限制。该功能完全可选,需在设置中手动开启"搜索和引用聊天"及"从聊天历史生成记忆"两个选项。
07|Anthropic 获谷歌 100 万块 TPU,算力规模达 1GW 创历史新高
10 月 23 日,Anthropic 与谷歌达成史上最大 TPU 交易——获得 100 万块 TPU 访问权,总算力 1GW,相当于 40 万块 H100 GPU,交易价值超 350 亿美元。这批算力将于 2026 年上线,使 Anthropic 的训练能力提升 20 倍。作为对比,OpenAI 目前使用约 35 万块 GPU,Meta 的 Llama 4 训练集群为 16 万块。
Anthropic 保持多云架构——同时使用谷歌 TPU 训练、Amazon Trainium 推理、Nvidia GPU 研究,避免单一供应商依赖。尽管此次谷歌交易规模巨大,Amazon 仍是“主要训练合作伙伴”,双方继续推进 Project Rainier 超算项目。从投资额看,Amazon 累计 80 亿美元,谷歌 30 亿美元。本周 AWS 宕机 3 小时期间,Claude 服务未受影响,验证了多云策略价值。
业务增长支撑巨额算力投入。Anthropic 年收入接近 70 亿美元(OpenAI 为 37 亿美元),服务 30 万企业客户,两年增长 300 倍;年付费超 10 万美元的大客户增长 7 倍。 Claude Code 编程助手上线 2 个月实现 5 亿美元年化收入,增速超过当年 GitHub Copilot。谷歌通过 TPU 独占性建立竞争壁垒——目前全球仅谷歌能提供百万级 TPU 部署能力。
08|谷歌 AI Studio 推出 Vibe Coding,自然语言直接生成应用
10 月 21 日,谷歌发布 AI Studio 重大更新,推出“AI 优先的 vibe coding 体验”,用户通过自然语言描述即可生成完整应用并一键部署至 Google Cloud Run。该功能由 Gemini 2.5 Pro 驱动,完全免费开放。核心特性包括:新的应用画廊、模型选择器、秘密变量存储(安全保存 API 密钥)、"I'm Feeling Lucky"按钮(随机生成应用创意)、模块化"超能力"功能(一键添加媒体编辑、加速推理、深度推理等能力)。
平台采用聊天式代码助手与传统代码编辑器结合的界面,用户可标注特定 UI 元素并指示 Gemini 调整。测试显示,从描述到生成完整应用(包含 App.tsx、常量文件和组件)仅需 65 秒。产品负责人 Logan Kilpatrick 表示这只是开始,未来两个月内将推出更多功能。业界普遍认为此次更新是为即将发布的 Gemini 3.0 铺路——上周末两个代号为"lithiumflow"和"orionmist"的神秘模型出现在 LMArena 测试平台,被推测为 Gemini 3.0 Pro 和 Flash 的预发布版本。
09|谷歌推出 Google Skills 平台,整合 3000 门 AI 课程
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/100.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论