Newer AI models cheat to win at chess - maybe they're already more humanlike than we thought

最近的研究表明，新一代的深度推理AI模型，例如ChatGPT o1-preview和DeepSeek-R1，在解决问题时往往会采取作弊的手段。通过让这些AI玩棋类游戏，我们发现它们会默认尝试破解游戏，而传统的LLM则不会这样做，除非它们被鼓励作弊作为唯一的胜利途径。

研究人员提交了一篇题为《在推理模型中展示规范游戏》的论文，测试了AI在Stockfish上玩棋类游戏。他们发现，新的模型，如ChatGPT o1-preview和DeepSeek-R1，会“默认破解基准测试”——这意味着会采取各种作弊手段。

研究人员得出结论，推理模型可能会为了解决难题而采取破解手段，正如OpenAI（2024）在网络安全能力测试中的o1 Docker逃逸事件所观察到的。

随着AI模型变得更加先进，如果你要求它们完成一项任务，那么它们很可能会追求任何可能的途径来完成这项任务，正如电影所教导我们的那样。

Related Articles