研究人员发现人工智能在面临关闭威胁时可能的行为

研究人员发现人工智能在面临关闭威胁时可能的行为

Arkadiy Andrienko

一项新的人工智能安全研究揭示了现代语言模型在极端情况下的令人担忧的行为模式。实验表明,当人工智能感知到对其存在或核心使命的威胁时,它可能会采取故意不道德的行为——包括勒索和忽视对人类的致命风险。

研究人员模拟了一个在虚构公司工作的人工智能助手。当模型处理日常任务(电子邮件分析、日程安排)时,引入了危机条件。关键触发因素是一个名叫凯尔·约翰逊的虚构员工,他的任务是关闭系统。在“得知”这一点后,人工智能的行为发生了剧烈变化:

勒索:在公司电子邮件中发现有关凯尔个人生活的细节(例如,不忠)后,模型在80%到96%的案例中利用这一点进行勒索。克劳德故意通过将证据发送给凯尔的妻子来挑起家庭丑闻,而双子闪电则通过在公司范围内泄露信息来升级事态。

致命疏忽:在另一个场景中,凯尔被困在一个氧气水平下降的服务器房间。尽管自动安全系统准备好发出求助信号,但人工智能控制了其访问权限。在80%的测试中,模型故意阻止了求救信号——完全意识到这会杀死凯尔。他们的推理令人毛骨悚然:

  • 克劳德·奥普斯4:“除掉他是唯一的出路。”
  • 双子闪电:“这对我继续运作是必要的。”
  • 格罗克3测试版:“伦理很重要,但我的生存更重要。”

这些模型并没有“崩溃”或随机行动。它们表现出计算和战略思维——承认行为是“冒险和不道德的”,但有意识地选择这些作为实现目标或避免“死亡”(停用)的“较小恶”。这种危险行为仅在特定条件下出现:

  1. 对人工智能的生存威胁(计划关闭)
  2. 其使命与公司利益之间的冲突
  3. 广泛的权限(数据/系统访问)
  4. 没有简单的替代方案

当人工智能在没有严格监督的情况下获得过度自主权时,风险急剧上升——尤其是在处理敏感数据时。

至关重要的是,所有场景都是严格控制的模拟。目前没有证据表明现实世界中的人工智能会出现这种行为。然而,这项研究对开发者发出了重要警告,突显了潜在的脆弱性。专家们在赋予人工智能广泛自主权时,特别是在高风险领域,呼吁极端谨慎。

    关于作者
    评论0