OpenAI首席执行官SamAltman在一篇博客文章中表示,2025年将是人工智能代理的重要一年,这些代理可以自动执行任务并代表您采取行动。现在,我们看到了OpenAI的第一次真正尝试。
OpenAI周四宣布,它将推出Operator的研究性预览,Operator是一种通用人工智能代理,可以控制网络浏览器并独立执行某些操作。
Operator将首先通过ChatGPT的200美元Pro订阅计划向美国用户推出。OpenAI表示,它计划最终将此功能推广给其Plus、Team和Enterprise级别的更多用户。
此初步研究预览可通过operator.chatgpt.com获得,但OpenAI表示很快将希望将Operator集成到ChatGPT中。
据OpenAI称,新的Operator功能有望自动执行预订旅行住宿、预订餐厅或在线购物等任务。用户可以在Operator中选择多个任务类别,包括购物、送货、餐饮和旅行,所有这些类别都支持不同类型的自动化。
当ChatGPT用户激活Operator代理时,会弹出一个小窗口,显示代理使用的专用Web浏览器,以及用于解释代理正在执行的任务的文本。用户在Operator工作时仍然可以控制他们的屏幕。
OpenAI表示,Operator由计算机使用代理(CUA)提供支持,它将公司的GPT-4o模型的视觉功能与OpenAI更高级模型的推理能力相结合。CUA经过训练可以与网站的前端进行交互,这意味着它不需要使用面向开发人员的API来利用不同的服务。
换句话说,CUA可以使用按钮、浏览菜单并在网页上填写表格——就像人类一样。
“CUA模型经过训练,可以在完成具有外部副作用的任务之前(例如在提交订单、发送电子邮件等之前)要求用户确认,以便用户可以在模型的工作永久生效之前对其进行仔细检查,”OpenAI在介绍中写道。“[它]已经在各种情况下证明是有用的,我们的目标是将这种可靠性扩展到更广泛的任务中。”
OpenAI表示,它正在与DoorDash、Instacart、Priceline、StubHub和Uber等公司合作,以确保运营商尊重这些企业的规范。
但OpenAI警告说,CUA并不完美。该公司表示,“不要期望CUA在所有情况下都能可靠地运行。”
出于谨慎考虑,OpenAI还要求对某些任务进行监督,例如银行交易,CUA和Operator可能能够完全独立执行。
“在特别敏感的网站上,例如电子邮件,Operator需要主动的用户监督,确保用户能够直接发现并解决模型可能犯的任何潜在错误,”OpenAI在其材料中表示。
Operator似乎是OpenAI迄今为止在创建AI代理方面最大胆的尝试。上周,OpenAI发布了Tasks,为ChatGPT提供了简单的自动化功能,例如设置提醒和安排提示在每天的固定时间运行的能力。Tasks为ChatGPT用户提供了一些熟悉但必要的功能,使ChatGPT像Siri或Alexa一样实用。然而,Operator展示了上一代虚拟助手永远无法做到的功能。
AI代理被认为是继ChatGPT之后AI领域的下一个重大事件:一项将改变我们使用互联网方式的新技术。代理不应该只是传递和处理信息,而应该真正采取行动并做事。随着OpenAI发布其第一个真实版本,我们也许开始看到这一愿景是否会实现。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】