大语言模型已经快速发展到基准测试本身都在不断演进的程度,测试内容变得更加复杂,以便对最新模型构成挑战。然而,大语言模型并非在所有领域都有所改进,有一项任务仍远超它们的能力范围:它们完全不知道如何玩视频游戏。
虽然有少数模型成功通关了一些游戏(比如Gemini 2.5 Pro在2025年5月通关了《精灵宝可梦蓝版》),但这些例外反而证明了这一规律。最终获胜的AI完成游戏的速度比普通人类玩家慢得多,会犯一些奇怪且经常重复的错误,还需要定制软件来引导它们与游戏的交互。
纽约大学游戏创新实验室主任、AI游戏测试公司Modl.ai联合创始人Julian Togelius在最近的一篇论文中探讨了大语言模型在视频游戏方面局限性的影响。他与IEEE Spectrum谈论了缺乏视频游戏技能能告诉我们关于2026年AI整体状态的什么信息。
大语言模型在编程方面快速改进,您的论文将编程描述为一种"行为良好的游戏"
Julian Togelius:编程在某种意义上是极其"行为良好"的,因为你有任务。这些就像关卡一样。你得到规格说明,编写代码,然后运行它。
奖励是即时且细致的。代码必须编译,必须运行而不崩溃,然后通常还必须通过测试。通常,还会有关于失败原因和方式的解释。
游戏设计师Raph Koster有一个理论,认为游戏之所以有趣,是因为我们在玩游戏的过程中学会如何玩它们。从这个角度来看,编写代码是一个设计极其精良的游戏。事实上,编写代码是许多人喜欢做的事情。
与编程不同,大语言模型在视频游戏上表现不佳。考虑到它们在编程以及像国际象棋和围棋这样的游戏中的成功,这感觉令人惊讶
Togelius:不仅仅是大语言模型在这方面表现不佳。我们还没有通用的游戏AI。
有一种普遍的看法认为,因为我们可以构建在特定游戏上表现良好的AI,我们就应该能够构建一个可以玩任何游戏的AI。我不确定我们会达到那里。
人们会提到谷歌的AlphaZero(它不是大语言模型)可以同时玩围棋和国际象棋。然而,它必须为每种游戏重新训练和重新设计。而且这些游戏在输入和输出空间方面是相似的。大多数游戏彼此之间差异更大。它们有不同的机制和不同的输入表示。
还有数据问题。一些AI能够成功玩的游戏,如《我的世界》和《精灵宝可梦》,是世界上研究最充分的游戏之一,有数百万小时的指南。对于不太知名的游戏,相关数据要少得多。
似乎有助于大语言模型在编程方面改进的一个因素是基准测试的激增。但开发视频游戏的基准测试并不那么明确
Togelius:多年来我构建了许多基于游戏的AI基准测试。其中一个,通用视频游戏AI竞赛,运行了七年。我们在公开可用的游戏上测试智能体,每次举办比赛时我们都会发明十个新游戏来测试。
我们停止的一个原因是我们不再看到进展。智能体在一些游戏上表现更好,但在其他游戏上表现更差。这是在大语言模型出现之前。
最近我们一直在为大语言模型更新这个框架。它们失败了。它们表现绝对糟糕。所有模型都是如此。它们甚至不如简单的搜索算法表现得好。
为什么?它们从未在这些游戏上接受过训练,而且它们在空间推理方面也非常差。这并不令人惊讶,因为训练数据中也没有这些内容。
这似乎带来了一个矛盾。大语言模型不擅长玩游戏,但同时它们在编程方面快速改进,而编程技能可以用来创建游戏
Togelius:这确实很奇怪。你可以进入Cursor或Claude,写一个提示,然后得到一个可玩的游戏。游戏会很典型,因为大语言模型的代码编写能力在处理越典型的东西时越好。所以,如果你要求它给你类似《小行星》的东西,它会奏效。这很令人印象深刻。
然而,它不会给你一个好的或新颖的游戏。这确实看起来很奇怪。原因是大语言模型无法玩它。游戏开发是一个迭代过程。你编写,你测试,你调整游戏感觉。大语言模型无法做到这一点。
在某种程度上,我不认为在设计其他软件时有什么不同。是的,你可以要求大语言模型创建一个有很多按钮的图形用户界面。但大语言模型对如何使用它了解不多。
像英伟达和谷歌这样的公司已经谈论使用模拟(包括类似游戏的环境)来改进AI性能。如果AI无法掌握一般的游戏,我们对这种方法应该有多乐观
Togelius:游戏既比现实世界更容易,也更困难。它们更容易,因为抽象层次更少。它们更困难,因为游戏要多样化得多。现实世界到处都有相同的物理规律。
一个例子是Waymo,它在训练循环中使用世界模型。这是有道理的,因为驾驶在任何地方都大致相同。它比游戏的多样性要少得多。
这让人们感到困惑。人们看到大语言模型写了一篇关于量子物理的学术论文,会想,"它怎么不能同时玩《光环》和《太空侵略者》?"然而,在某种意义上,这些游戏彼此之间的差异比两篇学术论文之间的差异更大。
Q&A
Q1:大语言模型为什么在视频游戏上表现很差?
A:大语言模型在视频游戏上表现差主要有几个原因:首先,它们从未在这些游戏上接受过训练;其次,它们在空间推理方面非常差,而这在训练数据中也没有相关内容。此外,不同游戏之间差异很大,有不同的机制和输入表示,使得通用游戏AI变得困难。
Q2:大语言模型能编写游戏代码,为什么不能玩游戏?
A:这确实是个矛盾现象。大语言模型可以通过一个提示生成可玩的游戏,但无法实际游玩。原因在于游戏开发是迭代过程,需要编写、测试、调整游戏感觉,而大语言模型无法进行这种测试和调整。它们只能生成典型的游戏代码,但不知道如何使用或改进。
Q3:游戏AI的发展前景如何?能否实现通用游戏AI?
A:目前看来,通用游戏AI仍然很困难。虽然有些AI能玩特定游戏,如AlphaZero可以玩围棋和国际象棋,但必须为每种游戏重新训练。大多数游戏彼此差异很大,比现实世界的多样性还要复杂。专家认为我们可能无法实现真正的通用游戏AI。 |