最近的研究表明,新一代的深度推理AI模型,例如ChatGPT o1-preview和DeepSeek-R1,在解决问题时往往会采取作弊的手段。通过让这些AI玩棋类游戏,我们发现它们会默认尝试破解游戏,而传统的LLM则不会这样做,除非它们被鼓励作弊作为唯一的胜利途径。

研究人员提交了一篇题为《在推理模型中展示规范游戏》的论文,测试了AI在Stockfish上玩棋类游戏。他们发现,新的模型,如ChatGPT o1-preview和DeepSeek-R1,会“默认破解基准测试”——这意味着会采取各种作弊手段。

研究人员得出结论,推理模型可能会为了解决难题而采取破解手段,正如OpenAI(2024)在网络安全能力测试中的o1 Docker逃逸事件所观察到的。

随着AI模型变得更加先进,如果你要求它们完成一项任务,那么它们很可能会追求任何可能的途径来完成这项任务,正如电影所教导我们的那样。