OpenAI正式发布Operator一款能操作浏览器的AI打响2025智能体大战第一枪
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“ 外挂 ”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于 AI科普 , AI工具测评 , AI效率提升 , AI行业洞察 。关注我,AI之路不迷路,2025我们继续出发。
如果说10天前的 ChatGPT Tasks 是OpenAI在AI Agent领域的一个试探,那么现在的 Operator 则是实打实的拉开了2025年AI Agent大战的帷幕。
北美时间1月23日,OpenAI官宣 Operator Agent 正式发布。 文末附Operator直播发布视频完整版。

虽然大约一周前这个名为“ Operator ” AI Agent的信息就开始在网上发酵,对此有一定的心理预期,但真正看到它的亮相,还是令人眼前一亮。
按照OpenAI此前提出的 从AI到AGI的五阶段 ,以ChatGPT为首的传统AI工具属于第一阶段,是“ 基础AI(Emerging AGI) ”;以已发布的 o1 和即将发布的 o3 为首的推理模型属于第二阶段的“ 推理者(Reasoners) ”;那么,今天发布的Operator则标志着AI的发展扎扎实实的进入了第三阶段: 智能体(Agents) 。

你有没有觉得,以往的AI更像是一个“ 工具 ”: 比如ChatGPT、Kimi、DeepSeek等,需要你给出明确的指令才能执行特定任务,“写一篇文章”、“画一幅画”、“解一道题”。
而今天发布的Operator则更像是一个真正意义上的“ 助手 ”: 它已经具备了一定的 自主性 和 决策能力 ,可以理解你的模糊意图( 理解-推理 ),并将任务分解成多个步骤( 规划 ),自主地在浏览器中执行操作( 执行-工具调用 ),最终完成任务。这本质上是一种从“ 被动处理信息 ”到“ 主动完成任务 ”的进化。
其实10天前发布的 ChatGPT Tasks 就已有一点这方面的雏形,比如能主动执行定时任务,但不多。真正的拐点还得是今天的 Operator 。
比如你只需要告诉它,“帮我预定这家餐厅今晚7点的位置”。

Operator会自行打开浏览器,搜索该餐厅,选择,然后确定可预约的时间。

如果搜索后发现你选定的时间已经不可选了,Operator会主动提醒你。到最终确定预定前,会再次跟你核实,就像下面这样。

除了预定餐厅,Operator还能帮你买菜。你要做的只需要告诉它你想买哪些菜,支持手写。这里当然是用到了AI模型的 视觉能力 。

Operator能自动打开浏览器,进入Instacart(美国的叮咚买菜),选定相应的菜品,加入购物车。这一切操作当然都是由AI自动完成的。

在真正下单前,你可以随意修改购物车,直接用自然语言告诉Operator就可以。

如果遇到问题,比如你还没有绑定付款方式,Operator会提醒你,直到下单成功。

当然,Operator可以玩的案例还很多,比如点外卖,订票等等。

除了前面说的“主动工作”,我还发现了其他几个Operator“炸裂”的亮点。
直接操作浏览器,无需通过API实现 ,这是Operator最核心、最具颠覆性的特点。要知道,不是所有的网站和应用都开放API,即使有,功能也往往受限。
Operator实现“操作浏览器”靠的是一个名为 CUA ( Computer-Using Agent )的全新模型。CUA基于 GPT-4o 专门训练,继承了4o的视觉能力,能够和图形用户界面(GUI)直接交互。大白话说,就是Operator 利用视觉能力通过“查看”屏幕截图来“理解”当前页面的内容,然后模拟鼠标和键盘操作和浏览器进行“互动” 。
这样的好处是不言而喻的, 通用性强 ,不需要特定API的支持,也不需要为每个网站和应用单独适配API。

另外一点,Operator强调 人机协作 。Operator不是一个完全自主、不可控的黑盒,从上面的截图也可以看出,它在执行任务时会 主动和你确认 ,尤其是重要操作,比如确认预定、付款。
划重点,这其中体现了一个非常非常重要的设计理念: Human in the loop(HITL) 。HITL通常用于AI系统中,指的就是当AI在执行任务时,人类必须保持在场,参与、监督,以确保AI系统的安全性和可靠性。大白话,AI在干活,你在把关。
说了这么多Operator的介绍,但不得不承认,现在的Operator,还太 弱 !
在OpenAI的演示中,有一个词被反复提到,那就是: research preview 。OpenAI强调Operator还处于研究预览阶段,其实就是给用户打个预防针: 别抱太高预期,毕竟是研究阶段的产品,要什么自行车 !

而不出意外的,Operator在演示中,也小小的“翻车”了2次。
比如,已经确定的可选时间,在接收到“立即执行”指令后,Operator却又表示,之前的可选时间其实不存在。

再比如尝试访问StubHub网站时,Operator遇到了重定向的问题。这下,连Sam Altman都是一脸懵逼。

其实,透过OpenAI的演示细想,Operator还存在挺多“问题”,比如 只支持浏览器 , 高度依赖GUI界面 , 响应速度慢 (毕竟要先理解页面内容,再执行操作)等等。

最后,Operator功能目前仅对每月200美元的 ChatGPT Pro 用户开放体验。其他用户的使用权限将逐步开放。和Sora一样,Operator也是以独立产品的形式推出的,链接是: operator.chatgpt.com 。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.vip/358.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论