OpenAI推出新语音模型，构建下一代AI助手

2025年8月29日, 18:04

OpenAI已宣布推出其实时API服务，该服务由新的gpt-realtime模型驱动，旨在创建更智能、更具响应性的语音助手。核心创新在于其端到端音频处理。与传统系统将语音转换为文本、分析文本然后生成机器人回复不同，gpt-realtime直接处理音频。这种方法显著减少了响应延迟，并允许更准确地复制语调、情感和自然对话的微妙差异。

新模型展示了改进的上下文理解能力，能够轻松处理复杂指令。由其驱动的助手可以无误地口述数字，逐字阅读法律免责声明，并在句子中间无缝切换语言。它还学会了识别非语言线索，如笑声或停顿，并相应地调整对话的语气。

该语音模型也是多模态的。用户可以发送截图或照片，助手可以分析并对此进行评论。此外，该模型支持SIP电话，铺平了将这些语音代理集成到企业PBX系统和标准电话网络的道路。

实时API和gpt-realtime模型现已向所有开发者开放，尽管尚未向公众全面推出或集成到ChatGPT中。这种直接的语音到语音技术解决了当前语音助手的主要缺陷——响应时间慢和机器人式的表达——使我们更接近一个时代，在这个时代，通过电话或应用与AI交谈几乎无法与与另一个人对话区分开来。

此次发布是在OpenAI本月经历了一些波折的开始之后。八月初发布的第五代ChatGPT机器人遭遇了褒贬不一的评价。用户的投诉促使公司迅速对服务进行调整，甚至暂时恢复了对先前模型的访问。竞争环境也在加剧；就在最近，中国初创公司 DeepSeek推出了其更新的DeepSeek-V3.1模型，其开发者声称该模型比其前身快2.5倍，支持128K令牌上下文窗口，并且完全免费。

在GPT-5的技术失误和竞争对手的进展中，OpenAI可能专注于完善其旗舰模型并扩展其生态系统，以赢回用户信任并巩固其市场地位。

帖子已翻译显示原文 (EN)

新闻硬件和技术 OpenAI

关于作者

Arkadiy Andrienko

文章和新闻的作者

作为VGTimes的技术记者，我同样乐于讨论最新的图形处理器，也深入探讨经典RPG的细节。自2018年以来，我一直在撰写关于游戏和设备的文章，我在音频制作领域的工作经验使我能够很好地理解音频技术的细微差别，我总是在寻找游戏设备领域的新事物。当我不在写技术文章时，我很可能在《辐射》中探索后末日的荒原，在《边缘世界》中管理一个殖民地，或者在《钢铁雄心IV》中指挥军队。对我来说，游戏不仅仅是一种爱好——它是一种激情，激发我的创造力，并与不断发展的技术世界保持联系。

...展开