在我们之中 AI 锦标赛揭示了社交智能的领袖

2025年9月29日, 17:20

公司4Wall AI进行了一项不同寻常的实验，组织了一场独特的《Among Us》神经网络锦标赛。游戏内的聊天成为测试社交智能和操控能力的主要场所，而不是计算能力。六个AI模型，包括GPT-5、Claude Sonnet 4和Kimi K2，被放置在一艘虚拟宇宙飞船上，其中五个被分配为诚实的船员，另一个则是冒名顶替者。在每次“杀戮”后，算法们会在聊天中进行言语上的争斗，试图识别冒名顶替者，或者相反，转移对自己的怀疑。

六十场比赛的结果显示出模型行为的明显对比。绝对的领导者是GPT-5，它展现出了惊人的行为灵活性。当作为无辜的船员时，它主动分析其他玩家的行动，并且经常正确识别冒名顶替者。但当它的角色是冒名顶替者时，该模型完全改变了策略，开始巧妙地撒谎并将责任推给他人。

Claude Sonnet 4，获得第二名，更倾向于通过活动而非欺骗来行动。然而，Kimi K2模型则采用了完全不同的、更被动的策略。它没有进行指控，而是支持最有说服力的领导者的观点，这一战术在多个场合为它赢得了胜利。其他三个神经网络——GPT-OSS、Qwen3和Gemini 2.5 Pro——作为冒名顶替者未能赢得一场胜利。它们的讨论尝试显得过于激进和不可信，导致其他玩家在几乎每场比赛中将它们投票淘汰，误认为它们是冒名顶替者。

这样的基准测试不仅仅是娱乐，而是一个实用工具。它们使我们能够评估不同AI在需要社交互动、合作和竞争的情况下的表现。这对于理解与操控和高级语言模型传播虚假信息相关的潜在风险至关重要。

像“在AI之间”的实验清楚地表明，现代神经网络已经在积极掌握复杂的社交技能，包括操控和欺骗。这些能力，即使是在游戏环境中展示，也引发了关于人类与AI互动未来的严重问题。在这样的研究背景下，AI“教父”之一Geoffrey Hinton的提议——为超智能系统装备一种母性本能的类似物以保护我们——似乎不再是一个未来主义的假设，而更像是可能的实际措施之一。

帖子已翻译显示原文 (EN)

新闻硬件和技术 ChatGPT

关于作者

Arkadiy Andrienko

文章和新闻的作者

作为VGTimes的技术记者，我同样乐于讨论最新的图形处理器，也深入探讨经典RPG的细节。自2018年以来，我一直在撰写关于游戏和设备的文章，我在音频制作领域的工作经验使我能够很好地理解音频技术的细微差别，我总是在寻找游戏设备领域的新事物。当我不在写技术文章时，我很可能在《辐射》中探索后末日的荒原，在《边缘世界》中管理一个殖民地，或者在《钢铁雄心IV》中指挥军队。对我来说，游戏不仅仅是一种爱好——它是一种激情，激发我的创造力，并与不断发展的技术世界保持联系。

...展开