OpenAI开发双向语音模型：被打断也能秒回让通话更自然顺畅

2026-03-19 07:40 19 阅读 0 评论 13 点赞

3月7日，据相关报道，人工智能公司OpenAI正致力于开发新一代语音交互技术，旨在显著提升人机对话的自然度与流畅性。据悉，该技术的重点突破在于，系统能够在对话过程中实时响应用户的打断行为，并动态调整后续回应，从而改变当前语音交互中常见的生硬中断现象。

目前，主流语音助手通常采用轮次应答机制，即需等待用户发言完全结束后，系统才会开始处理并生成回复。若用户在系统发言期间插入简短反馈，对话往往会被迫中止，难以实现类似人际交流的连续互动。

语音交互技术示意图

为解决上述局限，OpenAI正在研发的双向语音模型能够持续监听并解析用户的语音输入。这意味着当对话被打断时，系统可即时根据新接收的信息调整输出内容，而非固守预先生成的应答。相比之下，现有技术一旦开始输出语音，便难以在过程中融入新的交互信息。

据了解，该项技术目前尚处于内部测试阶段。有消息人士指出，早期原型在连续运行数分钟后可能出现稳定性问题，偶尔还会产生不自然的音频输出。研发团队原计划于今年上半年推出该模型，但发布时间可能会有所推迟。

行业分析认为，若语音交互的自然度能接近文本对话水平，其应用场景将大幅拓宽。毕竟对多数用户而言，语音交流比文字输入更为直观便捷。尤其在客户服务领域，这项技术有望带来显著体验提升——例如，当消费者在售后咨询中临时更改诉求时，系统可顺畅衔接后续流程，避免对话中断或逻辑混乱。

此外，消息人士透露，该模型在连接外部应用与服务方面也设计了更高灵活性。OpenAI此前曾表示，公司正探索以语音为核心交互方式的智能设备，未来可能推出可通过语音指令处理邮件查询、服务预约等任务的硬件产品。

（举报）

OpenAI开发双向语音模型：被打断也能秒回 让通话更自然顺畅