研究揭示了人工智能与人类表现相匹配的任务

研究揭示了人工智能与人类表现相匹配的任务

Arkadiy Andrienko

OpenAI进行了一项大规模研究,以评估现代神经网络在实际工作任务中的表现。研究结果表明,人工智能已经能够在数十个职业中以经验丰富的员工的水平执行某些功能。

这项名为GDPval的实验涵盖了44个不同职业中的220个任务。这些领域的专业人士自己评估了人工智能模型在他们日常工作中的有效性。这些职业包括房地产代理、律师、工程师、软件开发人员、药剂师和财务顾问。

研究发现,神经网络在常规、定义明确的任务中表现最佳。例如,人工智能已经能够起草营销材料、分析市场数据、协助准备初步法律文件或处理医学图像。有趣的是,在这场模型之间的非正式竞争中,领先者并不是OpenAI的产品。专家评选的顶级模型是来自Anthropic的Claude Opus 4.1,GPT-5紧随其后。

更先进的GPT-5版本产生的输出在40%的案例中被专家评估为与人类工作相当或更好。相比之下,上一代的GPT-4o仅在13.7%的任务中达到了这一结果。OpenAI强调,这并不是要完全取代人类,而是关于人工智能在协助员工中的角色,机器可以更快、更便宜地执行一些重复性任务,从而使专业人士能够专注于更复杂的事务。

广泛采用的主要障碍仍然是所谓的“人工智能幻觉” ——神经网络产生不可靠或虚构信息的情况。这在长且复杂的项目中尤为明显,人类监督仍然至关重要。有一点是明确的:人工智能不再仅仅是一个玩具;它已成为一种改变游戏规则的工具,可以在许多专业领域为人类提供宝贵的帮助。

    关于作者
    评论0