一个来自 OpenAI的研究团队发布了一项详细调查 ,探讨了为什么像ChatGPT这样的语言模型有时会自信地编造事实。他们的发现指向了这些模型在训练和测试过程中存在的根本缺陷——一个奖励猜测而不是承认缺乏知识的系统。
研究人员使用了一个引人注目的类比:一个学生参加多项选择考试。如果空白答案得分为零,但猜测至少有一定的正确机会并得分,那么理性的选择总是猜测。AI也是如此。像MMLU(大规模多语言理解)这样的标准基准采用的是二元的对/错评分系统。一个说“我不知道”的模型会自动失败,而一个冒险猜测的模型有时是正确的。这本质上教会了算法虚张声势。
这种问题行为在初始的预训练阶段就开始了,使用了大量文本数据集。一些事实,尤其是晦涩的事实,几乎不可能以绝对的确定性进行预测。然而,“猜测”模式在后期变得根深蒂固,当开发者微调模型以在优先考虑高准确率的测试中表现出色时。
在他们的研究中,OpenAI提出了评估AI性能的转变。作者建议,对于自信的虚假陈述,模型应受到严重惩罚,但对于正确表达不确定性或说“我不知道”的情况应给予部分积分。这将使开发竞赛从创造“最聪明”的模型转向构建更可靠和真实的助手。
专家强调,这些幻觉并不是神秘的故障,而是一个系统性的、被充分理解的问题。即使是最先进的现代模型也不例外。重新思考我们的评估系统可能是构建对自身知识限制有更好理解的AI的关键。
帖子已翻译 显示原文 (EN)