3月7日,据相关报道,人工智能公司OpenAI正致力于开发新一代语音交互技术,旨在显著提升人机对话的自然度与流畅性。据悉,该技术的重点突破在于,系统能够在对话过程中实时响应用户的打断行为,并动态调整后续回应,从而改变当前语音交互中常见的生硬中断现象。

目前,主流语音助手通常采用轮次应答机制,即需等待用户发言完全结束后,系统才会开始处理并生成回复。若用户在系统发言期间插入简短反馈,对话往往会被迫中止,难以实现类似人际交流的连续互动。

语音交互技术示意图

为解决上述局限,OpenAI正在研发的双向语音模型能够持续监听并解析用户的语音输入。这意味着当对话被打断时,系统可即时根据新接收的信息调整输出内容,而非固守预先生成的应答。相比之下,现有技术一旦开始输出语音,便难以在过程中融入新的交互信息。

据了解,该项技术目前尚处于内部测试阶段。有消息人士指出,早期原型在连续运行数分钟后可能出现稳定性问题,偶尔还会产生不自然的音频输出。研发团队原计划于今年上半年推出该模型,但发布时间可能会有所推迟。

行业分析认为,若语音交互的自然度能接近文本对话水平,其应用场景将大幅拓宽。毕竟对多数用户而言,语音交流比文字输入更为直观便捷。尤其在客户服务领域,这项技术有望带来显著体验提升——例如,当消费者在售后咨询中临时更改诉求时,系统可顺畅衔接后续流程,避免对话中断或逻辑混乱。

此外,消息人士透露,该模型在连接外部应用与服务方面也设计了更高灵活性。OpenAI此前曾表示,公司正探索以语音为核心交互方式的智能设备,未来可能推出可通过语音指令处理邮件查询、服务预约等任务的硬件产品。

(举报)

点赞(13)

评论列表共有 0 条评论

立即
投稿
返回
顶部