自从2025年1月23日OpenAI发布了其新的人工智能助手Operator以来,人们对它的期望非常高。Operator被吹捧为能够自主完成任务的革命性AI代理,具备博士级别的智能,能够自主进行编程任务,并有望超越人类的能力。然而,根据用户们的初步反馈,Operator的表现似乎并不尽如人意。
Operator的设计理念是能够代替用户执行任务,而不需要太多的监督。它通过接管用户的电脑来实现这一目标,采用了一种计算机使用代理(CUA)模型,该模型集成了视觉处理和推理能力,可以解读屏幕上的内容并执行特定的操作。
Bloomberg的Rachel Metz曾亲自试用过Operator,让它完成了日常生活中的一些任务,比如购买杂货、预订餐厅以及填写表格。Operator成功地从Sephora订购了口红,为Ben & Jerry's冰淇淋填好了购物车,并建议添加额外的商品以满足免费配送的要求。然而,在一些简单的任务上,如填写电子表格、管理日历以及浏览陌生网页时,Operator却显得力不从心。许多用户反映,Operator需要持续的监督,即使在成功完成任务时也显得不够高效。
一位Reddit上的AI爱好者分享了他的体验:"Operator非常缓慢、昂贵且容易出错。它产生的幻觉比GPT-3还要严重。" 这位用户还提到,Operator会提出很多后续问题,这反而浪费了时间。
随着自主AI的发展,关于工作替代的问题也随之而来。英伟达的黄仁勋在CES 2025上曾表示,IT部门将成为AI代理的HR。然而,对于那些关于AI代理将取代劳动力的豪言壮语,也有不少提醒指出它们的基本问题。
例如,被称为‘世界上第一个AI软件工程师’的Devin也曾被吹捧为编程领域的范式转变。然而,在其发布后,用户和研究人员都对它的某些声明提出了质疑。例如:
- Carl Brown,一位软件开发者指出:"Devin没有完成所宣传的任务,而是生成了自己的代码错误,然后修复了这些错误。"
- Answer AI研究团队也表示:"更令人担忧的是Devin倾向于继续执行实际上不可能完成的任务。"
尽管关于AI代理的声明最终可能会得到证实,但实际应用而非空谈将是决定因素。