彭博今天消息,OpenAI正准备推出一款代号为“Operator”的全新AI Agent产品,可以自动执行各种复杂操作,包括编写代码、预订旅行、自动电商购物等。
根据内部员工爆料,OpenAI领导层预计将在2025年1月发布该产品,同时会为开发人员开放API接口。
彭博表示,OpenAI一直在进行几个与智能体相关的研究项目。其中一位人士表示,最接近完成的将是一个在网络浏览器中执行任务的通用工具。
OpenAI这一计划的发布,是整个行业向智能体推进的一部分。最近微软、谷歌、Anthropic都相继发布了功能强大的AI Agent。
尤其是Anthropic发布的“Computer Use”直接颠覆了人机交互,通过API开发者可以让Claude像人类一样使用计算机控制鼠标、键盘,包括查看屏幕、移动光标、点击按钮和输入文本等操作。
例如,用户可以让Claude去搜索网页上的信息、在电子表格中填写数据;或者打开软件进行特定的操作;也能协助开发人员执行重复性任务、测试代码等,整个流程Claude会根据指令自动执行相应的操作。
目前,Computer use主要依靠API来驱动自动化指令,当开发者通过API向Claude发送指令时,Claude会运用其自然语言处理能力解析指令。其内部语言模型会对指令文本进行词法、句法和语义分析,例如,对于“使用计算机中的数据填写在线表格”这样的指令,Claude会识别出关键动作是填写表格以及数据来源是计算机中的数据。
这一过程类似它在处理文本生成任务时对语义的理解,只是此时语义重点在于计算机操作。会基于预训练过程中学到的语言模式和知识,将指令意图映射到对应的计算机操作概念上,预训练的知识包括常见的计算机操作术语、软件功能描述等,以便准确把握开发者希望它执行的操作。
而OpenAI在明年发布的“Operator”很可能会在Computer use的基础之上进行大幅度创新和应用简化,扩大AI Agent的使用范围和应用场景。
封面图片来源:视觉中国-VCG31N2008743681
免责声明
本文为每经号作者或机构在每经APP上传并发布,仅代表该作者或机构观点,不代表每日经济新闻的观点或立场,每经APP仅提供信息发布平台。
郑重提示
每经号作者或机构文章仅限每经APP使用,严禁转载或镜像,违者必究。