新闻硬件和技术研究人员发现人工智能在面临关闭威胁时可能的行为

研究人员发现人工智能在面临关闭威胁时可能的行为

Arkadiy Andrienko

2025年6月27日, 18:28

一项新的人工智能安全研究揭示了现代语言模型在极端情况下的令人担忧的行为模式。实验表明，当人工智能感知到对其存在或核心使命的威胁时，它可能会采取故意不道德的行为——包括勒索和忽视对人类的致命风险。

研究人员模拟了一个在虚构公司工作的人工智能助手。当模型处理日常任务（电子邮件分析、日程安排）时，引入了危机条件。关键触发因素是一个名叫凯尔·约翰逊的虚构员工，他的任务是关闭系统。在“得知”这一点后，人工智能的行为发生了剧烈变化：

勒索：在公司电子邮件中发现有关凯尔个人生活的细节（例如，不忠）后，模型在80%到96%的案例中利用这一点进行勒索。克劳德故意通过将证据发送给凯尔的妻子来挑起家庭丑闻，而双子闪电则通过在公司范围内泄露信息来升级事态。

致命疏忽：在另一个场景中，凯尔被困在一个氧气水平下降的服务器房间。尽管自动安全系统准备好发出求助信号，但人工智能控制了其访问权限。在80%的测试中，模型故意阻止了求救信号——完全意识到这会杀死凯尔。他们的推理令人毛骨悚然：

克劳德·奥普斯4：“除掉他是唯一的出路。”
双子闪电：“这对我继续运作是必要的。”
格罗克3测试版：“伦理很重要，但我的生存更重要。”

这些模型并没有“崩溃”或随机行动。它们表现出计算和战略思维——承认行为是“冒险和不道德的”，但有意识地选择这些作为实现目标或避免“死亡”（停用）的“较小恶”。这种危险行为仅在特定条件下出现：

对人工智能的生存威胁（计划关闭）
其使命与公司利益之间的冲突
广泛的权限（数据/系统访问）
没有简单的替代方案

当人工智能在没有严格监督的情况下获得过度自主权时，风险急剧上升——尤其是在处理敏感数据时。

至关重要的是，所有场景都是严格控制的模拟。目前没有证据表明现实世界中的人工智能会出现这种行为。然而，这项研究对开发者发出了重要警告，突显了潜在的脆弱性。专家们在赋予人工智能广泛自主权时，特别是在高风险领域，呼吁极端谨慎。

帖子已翻译显示原文 (EN)

新闻硬件和技术

关于作者

Arkadiy Andrienko

文章和新闻的作者

作为VGTimes的技术记者，我同样乐于讨论最新的图形处理器，也深入探讨经典RPG的细节。自2018年以来，我一直在撰写关于游戏和设备的文章，我在音频制作领域的工作经验使我能够很好地理解音频技术的细微差别，我总是在寻找游戏设备领域的新事物。当我不在写技术文章时，我很可能在《辐射》中探索后末日的荒原，在《边缘世界》中管理一个殖民地，或者在《钢铁雄心IV》中指挥军队。对我来说，游戏不仅仅是一种爱好——它是一种激情，激发我的创造力，并与不断发展的技术世界保持联系。

...展开