ChatGPT 版的「贾维斯」真的要来了。
在去年 12 月,OpenAI CEO Sam Altman 公布了一份有趣的调查,网友们最期待 OpenAI 在 2025 年实现的技术突破中,AGI 高居榜首,紧随其后的是智能体。如今,这个期待似乎即将部分成真。
而现在,据外媒 The Information 援引知情人士消息,OpenAI 正准备在本周推出一项名为 Operator 的新 ChatGPT 功能,该功能能够在网络浏览器自动完成如预订餐厅或规划旅行等复杂任务。
Operator 的功能设计颇具人性化,具体来说,它为用户提供了餐饮与活动、送货、购物和旅行等多种任务类别,每个类别都配有相应的建议提示。
当用户输入需求后,聊天界面会弹出一个小型浏览器窗口,实时展示 Operator 智能体的操作过程。在执行任务时,它会根据需要询问细节信息,比如餐厅预订的具体时间和人数。
值得一提的是,用户不仅可以手动控制这个界面,还能保存任务并与他人分享。虽然目前 Operator 还不支持 Gmail 操作,但用户可以登录其他网站,且登录状态会在多次会话间保持。
不过,此前有消息称,Operator 在执行任务时使用的截图内容可能被恶意利用,导致「提示注入攻击」,存在严重的安全隐患。
因此,即便本周官宣,也未必会立即上线,但愿这不会又是一个「期货」。针对相关置评请求,OpenAI 尚未作出回应。
事实上,这类能够控制用户设备、协助完成复杂操作的 AI 功能正成为国内外 AI 企业竞相追逐的下一个风口。
去年 10 月,Anthropic 就发布了一项名为「Computer Use」的计算机操作功能。
该功能允许开发者通过 API 指导 Claude 像人类一样操作计算机,包括查看屏幕、移动光标、点击按钮和输入文本。它标志着 AI 在模拟人类与计算机交互方面迈出了重要一步。
短短两个月后,Google 也推出了名为 Project Mariner 的项目,由 Google DeepMind 开发,基于 Gemini 2.0 模型,它可以在 Google Chrome 浏览器上为用户执行任务。
将视野转入国内,智谱也发布了名为 AutoGLM-Web 的网页版自动驾驶功能。
通过智谱清言插件,用户可以让 AI 在百度、微博、知乎、Github 等多个平台上自动检索、生成内容和互动,甚至支持跨网站操作,为用户带来「全自动」上网体验。
在 OpenAI 的五级 AGI 路线图中,智能体正是处于 L3 级别,其特点是不仅能思考,还能代表用户采取行动,执行复杂任务。
业内人士认为,智能体是通往通用人工智能(AGI)的必经之路,通过构建能够自主决策和执行任务的智能体,可以逐步实现更接近人类水平的通用智能。
而在这场通往 AGI 的竞赛中,中国科技公司也正在加速布局。
1 月 23 日,APPSO 获悉,字节豆包大模型团队已在内部组建 AGI 长期研究团队,代号「Seed Edge」,鼓励项目成员探索更长周期、不确定的和大胆的 AGI 研究课题。
有接近字节的知情人士透露,Seed Edge 的目标是探索 AGI 的新方法,代号名中的 Seed 是豆包大模型团队名称,而 Edge 代表最前沿的 AGI 探索。
目前,Seed Edge 初步确定了五大研究方向,包括:
另外据晚点从字节内部获取的信息,字节创始人张一鸣非常重视和强调加强 AI 研究投入,不仅亲自研读论文、关注技术细节,还与顶尖 AI 研究者密切交流,并鼓励字节 AI 研究团队探索、研究基础课题。
在新加坡,他甚至组建了专门的研究团队,其中包括新加坡国立大学原教授、现任字节研究员的冯佳时,自 2023 年起担任其技术顾问。
在中国科技巨头中,字节应该是拥有大量资源且行动最为迅速的,大有 All in AI之势。这场通往 AGI 的竞赛中,赢家或许还未可知,但改变已悄然开启。