OpenAI 发布了 Operator — 一种新的 AI 代理,能够代表用户在 ChatGPT 上执行互联网操作
Hennadiy Chemеris
2025年1月24日, 05:56
2025年1月24日, 13:18
Operator由一个名为计算机使用代理(CUA)的新模型驱动。CUA结合了GPT-4o的视觉能力和通过强化学习进行的高级推理,经过训练可以与图形用户界面(GUI)进行交互——人们在屏幕上看到的按钮、菜单和文本框。
Operator可以“看到”(通过截图)并“互动”(使用鼠标和键盘允许的所有操作)浏览器,使其能够在不需要自定义API集成的情况下在网络上采取行动。
以下是Operator支持的一些功能:
- 根据照片和食谱为菜肴订购食材;
- 根据用户的预算和兴趣以及来自Reddit论坛的信息规划旅行;
- 根据可能在未来流行的代币探索加密货币投资机会;
- 在Booking上预订航班和住宿;
- 根据Google日历中的日程安排预约理发;
- 为母亲、妻子或其他亲人寻找礼物;
- 通过与Thumbtack服务的集成订购家庭清洁;
- 寻找负担得起的医疗保险;
- 寻找各种服务,例如在不同国家找到遛狗者。
值得注意的是,该功能可以拒绝执行可能造成伤害或构成潜在威胁的某些操作。Operator支持几乎所有HTTPS协议网站,以及一些服务和应用程序。
使用Operator功能时,会在云中启动一个加密浏览器。如果需要,用户可以接管并调整任务。在某些情况下,例如在网站上进行购买时,用户必须确认请求。
在美国,拥有每月200美元的高级ChatGPT Pro计划的用户已经获得了Operator的提前访问权限。在不久的将来,OpenAI计划扩大对Plus、Team和Enterprise计划的支持。该功能目前在欧盟不可用。
此前,我们报道了一个新的AI功能,用于 Reddit 论坛。
帖子已翻译 显示原文 (EN)
