AI Agents like OpenAI's 'Operator' have a long way to go before replacing humans

自从2025年1月23日OpenAI发布了其新的人工智能助手Operator以来，人们对它的期望非常高。Operator被吹捧为能够自主完成任务的革命性AI代理，具备博士级别的智能，能够自主进行编程任务，并有望超越人类的能力。然而，根据用户们的初步反馈，Operator的表现似乎并不尽如人意。

Operator的设计理念是能够代替用户执行任务，而不需要太多的监督。它通过接管用户的电脑来实现这一目标，采用了一种计算机使用代理（CUA）模型，该模型集成了视觉处理和推理能力，可以解读屏幕上的内容并执行特定的操作。

Bloomberg的Rachel Metz曾亲自试用过Operator，让它完成了日常生活中的一些任务，比如购买杂货、预订餐厅以及填写表格。Operator成功地从Sephora订购了口红，为Ben & Jerry's冰淇淋填好了购物车，并建议添加额外的商品以满足免费配送的要求。然而，在一些简单的任务上，如填写电子表格、管理日历以及浏览陌生网页时，Operator却显得力不从心。许多用户反映，Operator需要持续的监督，即使在成功完成任务时也显得不够高效。

一位Reddit上的AI爱好者分享了他的体验："Operator非常缓慢、昂贵且容易出错。它产生的幻觉比GPT-3还要严重。" 这位用户还提到，Operator会提出很多后续问题，这反而浪费了时间。

随着自主AI的发展，关于工作替代的问题也随之而来。英伟达的黄仁勋在CES 2025上曾表示，IT部门将成为AI代理的HR。然而，对于那些关于AI代理将取代劳动力的豪言壮语，也有不少提醒指出它们的基本问题。

例如，被称为‘世界上第一个AI软件工程师’的Devin也曾被吹捧为编程领域的范式转变。然而，在其发布后，用户和研究人员都对它的某些声明提出了质疑。例如：

Carl Brown，一位软件开发者指出："Devin没有完成所宣传的任务，而是生成了自己的代码错误，然后修复了这些错误。"
Answer AI研究团队也表示："更令人担忧的是Devin倾向于继续执行实际上不可能完成的任务。"

尽管关于AI代理的声明最终可能会得到证实，但实际应用而非空谈将是决定因素。

Related Articles