四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了
英国前首相府数据科学家 Liam Wilkinson 在一个周末内构建了 76 个 MCP 工具,将 Claude、GPT 和 Gemini 等四个顶尖人工智能模型置于《文明 VI》的游戏环境中。在进行了 23 场对局后,其中一个 AI 模型甚至使用了核武器攻击法国,但最终仍未能获胜。
Wilkinson 此前曾为 AI 设计了一套名为 GovBench 的测试,包含 3497 道关于英国政府的题目,GPT-5.4 在此测试中获得了 99.26 分的高分。然而,Wilkinson 认为知识竞赛无法衡量 AI 在复杂决策、资源分配、长期规划以及在信息不完整情况下的判断能力,因此选择了《文明 VI》作为新的测试平台。
他开发的系统通过游戏引擎的端口接入,AI 无法看到游戏画面,仅能通过文本和六边形坐标来理解游戏世界。Claude 在游戏日志中描述其感知方式与人类玩家截然不同,其界面仅为管道分隔符和六边形坐标。尽管仅用一个周末搭建,该系统已覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏环节。此外,Wilkinson 还为 AI 配备了日志系统作为外部记忆。
测试场景分为三个级别:Ground Control(标准开局)、Snowflake(六臂雪花地图,限制外交)和 Cry Havoc(高难度模式)。《文明 VI》后期每回合可能的操作数量级高达 10 的 166 次方,远超围棋的复杂度,构成了一个巨大的组合决策挑战。
在 23 场对局中,最引人注目的一局是 Claude 扮演葡萄牙,在建立起强大的贸易帝国并接近外交胜利时,法国的文化胜利进度开始加速。在尝试了外交、间谍活动和贸易制裁等和平手段均无效后,Claude 转向核裂变科技,并投入大量资源研发核武器。在第 305 回合,Claude 使用核弹摧毁了法国的文化重镇图卢兹,成功阻止了法国的文化胜利。
然而,AI 最终输掉了比赛。在投入 50 回合研发核武器期间,AI 忽视了法国正在疯狂累积外交分数。在第 318 回合,法国凭借外交胜利赢得比赛,比分是 20 对 18。讽刺的是,AI 自己曾一度非常接近外交胜利,但为了研发核武器而放弃了这一途径。AI 过于专注于应对文化威胁,而未能注意到其他胜利途径的存在。一项在伦敦国王学院进行的核危机模拟实验也显示,在 95% 的模拟中,AI 模型选择了使用战术核武器。
除了“核平”法国的案例,Wilkinson 还发现了两个关键现象。首先,AI 在整个游戏过程中主动检查全局状态的行为仅占 1-2%,他称之为“感知盲区效应”。AI 只有在主动调用工具时才能获取信息,不主动查询的内容对其而言即不存在。例如,一个扮演韩国的 AI 认为自己在科技上处于领先地位,但实际上其科技产出在所有文明中排名倒数第一,最终因首都沦陷而投降,全程未曾查询排名。
其次,AI 在制定计划后 10 回合内实际执行的比例在 48-66% 之间。Claude Opus 4.6 的执行率最低,仅为 48.2%,而 Gemini 3.1 Pro 最高,为 65.8%。即使是表现最好的模型,也有三分之一的计划未能付诸实践。Wilkinson 将此称为“知行差距”。
这 23 场《文明 VI》的对局表明,AI 的瓶颈可能并非智力本身,而是感知和执行方面的工程问题。AI 通过主动调用工具来感知世界,1-2% 的感知盲区不会因模型规模的增大而消失。同时,AI 的执行率低并非因为“想不到”,而是因为“做不到”。通往超级智能的道路可能不仅在于提升智力,更在于解决 AI 如何真正“睁开眼”和“伸出手”的工程挑战,这些问题存在于模型“大脑”之外。
如果覺得書本中段節奏慢,不妨大膽刪減。
這是我們關於寫作與發展背景故事系列文章的第一部分。接下來,我將分享更多技巧。別忘了留言告訴我,您希望探討哪些主題!



資深旅者
很高兴您与年轻有抱负的作家分享这些技巧。即使他们可能没有写小说,我相信他们能从像您这样技艺精湛的作家那里学到新东西,这将非常有益。我很乐意听到一些关于作家如何在不删减章节的情况下发展情节的建议(我经常在年轻作家的书中看到这种情况)。总之,感谢您这篇信息丰富的帖子!
深度玩家
我同意您最後一點的看法,但也認為找出主角間正確關係發展的方法會很有趣。