研究揭示了人工智能与人类表现相匹配的任务

2025年10月1日, 12:21

OpenAI进行了一项大规模研究，以评估现代神经网络在实际工作任务中的表现。研究结果表明，人工智能已经能够在数十个职业中以经验丰富的员工的水平执行某些功能。

这项名为GDPval的实验涵盖了44个不同职业中的220个任务。这些领域的专业人士自己评估了人工智能模型在他们日常工作中的有效性。这些职业包括房地产代理、律师、工程师、软件开发人员、药剂师和财务顾问。

研究发现，神经网络在常规、定义明确的任务中表现最佳。例如，人工智能已经能够起草营销材料、分析市场数据、协助准备初步法律文件或处理医学图像。有趣的是，在这场模型之间的非正式竞争中，领先者并不是OpenAI的产品。专家评选的顶级模型是来自Anthropic的Claude Opus 4.1，GPT-5紧随其后。

更先进的GPT-5版本产生的输出在40%的案例中被专家评估为与人类工作相当或更好。相比之下，上一代的GPT-4o仅在13.7%的任务中达到了这一结果。OpenAI强调，这并不是要完全取代人类，而是关于人工智能在协助员工中的角色，机器可以更快、更便宜地执行一些重复性任务，从而使专业人士能够专注于更复杂的事务。

广泛采用的主要障碍仍然是所谓的“人工智能幻觉” ——神经网络产生不可靠或虚构信息的情况。这在长且复杂的项目中尤为明显，人类监督仍然至关重要。有一点是明确的：人工智能不再仅仅是一个玩具；它已成为一种改变游戏规则的工具，可以在许多专业领域为人类提供宝贵的帮助。

帖子已翻译显示原文 (EN)

新闻硬件和技术 OpenAI

关于作者

Arkadiy Andrienko

文章和新闻的作者

作为VGTimes的技术记者，我同样乐于讨论最新的图形处理器，也深入探讨经典RPG的细节。自2018年以来，我一直在撰写关于游戏和设备的文章，我在音频制作领域的工作经验使我能够很好地理解音频技术的细微差别，我总是在寻找游戏设备领域的新事物。当我不在写技术文章时，我很可能在《辐射》中探索后末日的荒原，在《边缘世界》中管理一个殖民地，或者在《钢铁雄心IV》中指挥军队。对我来说，游戏不仅仅是一种爱好——它是一种激情，激发我的创造力，并与不断发展的技术世界保持联系。

...展开