OpenAI已 宣布推出其实时API服务,该服务由新的gpt-realtime模型驱动,旨在创建更智能、更具响应性的语音助手。核心创新在于其端到端音频处理。与传统系统将语音转换为文本、分析文本然后生成机器人回复不同,gpt-realtime直接处理音频。这种方法显著减少了响应延迟,并允许更准确地复制语调、情感和自然对话的微妙差异。
新模型展示了改进的上下文理解能力,能够轻松处理复杂指令。由其驱动的助手可以无误地口述数字,逐字阅读法律免责声明,并在句子中间无缝切换语言。它还学会了识别非语言线索,如笑声或停顿,并相应地调整对话的语气。
该语音模型也是多模态的。用户可以发送截图或照片,助手可以分析并对此进行评论。此外,该模型支持SIP电话,铺平了将这些语音代理集成到企业PBX系统和标准电话网络的道路。
实时API和gpt-realtime模型现已向所有开发者开放,尽管尚未向公众全面推出或集成到ChatGPT中。这种直接的语音到语音技术解决了当前语音助手的主要缺陷——响应时间慢和机器人式的表达——使我们更接近一个时代,在这个时代,通过电话或应用与AI交谈几乎无法与与另一个人对话区分开来。
此次发布是在OpenAI本月经历了一些 波折的开始之后。八月初发布的第五代ChatGPT机器人遭遇了褒贬不一的评价。用户的投诉促使公司迅速对服务进行调整,甚至暂时恢复了对先前模型的访问。竞争环境也在加剧;就在最近,中国初创公司 DeepSeek推出了其更新的DeepSeek-V3.1模型,其开发者声称该模型比其前身快2.5倍,支持128K令牌上下文窗口,并且完全免费。
在GPT-5的技术失误和竞争对手的进展中,OpenAI可能专注于完善其旗舰模型并扩展其生态系统,以赢回用户信任并巩固其市场地位。
帖子已翻译 显示原文 (EN)