OpenAI发布全新语音模型GPT-4o Transcribe和Mini TTS，提升语音识别准确性-模具钢网

3 月 21 日有消息称，OpenAI 推出了三款全新的语音模型。其中有两款是语音转文本（STT）模型，分别是 GPT-4o Transcribe 和 GPT-4o Mini Transcribe。还有一款是文本转语音模型 GPT-4o Mini TTS。这三款模型是专门为支持语音智能体而进行设计的，并且目前已向全球的开发者开放。

GPT-4o Transcribe 和 GPT-4o Mini Transcribe 与最初的 Whisper 模型相比，在单词错误率（WER）和语言识别准确性方面有显著提升。它们在包括 FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）——涵盖 100 多种语言的多语言语音基准测试——在内的基准测试中实现了更低的 WER。在英语、法语等语种中，其错误率远低于包括 gemini-2.0-flash 在内的模型。

- WER 越低，就表示错误越少，性能也就越好。

OpenAI 提供的数据表明，在英语基准测试里，GPT-4o Transcribe 的错误率低于 3%。

OpenAI 称，这些新的语音转文本模型有能力更好地把握住语音的细微差异，能够减少错误识别的情况，还能提升转录的可靠性。尤其在面对口音、嘈杂环境以及语速变化等复杂场景时，其表现格外出色。当下，相关模型已通过语音转文本 API 进行提供。

前两款模型主要侧重于准确率的提升，而 GPT-4o Mini TTS 模型在可操控性方面表现更优。

OpenAI官方提供了多种不同情景下的Agent参考发音

OpenAI 表示开发者不但能够“指示”模型去说什么，而且还可以指定其说话的方式（以指定的情绪来表达），这样就能为多种应用场景提供更具定制化的体验，这些应用场景涵盖了客户服务以及创意故事叙述等，并且该模型现在已经通过文本转语音 API 进行提供。

需要注意的是，现阶段这些文本转语音模型可使用的音色仅限于 OpenAI 人工预设的语音。OpenAI 表示，会进行监控以确保这些语音始终符合合成语音的预设标准。

OpenAI 称，在过去的几个月当中，该公司一直都在努力提升基于文本的智能体的智能性、功能性以及实用性，并且推出了像 Operator、Deep Research、Computer-Using Agents 以及内置工具的 Responses API 这样的产品。然而，要让智能体真正具备实用性，用户得有能力以更深入、更直观的方式与它互动，而不能仅仅依靠文本进行交流。

这些新的语音模型具备让开发者构建更强大语音智能体的能力，还能让智能体可定制且智能，进而提供更有价值的服务。这些模型在准确性与可靠性方面表现出色，尤其是在处理口音、嘈杂环境以及语速变化等复杂场景时。这些改进提升了转录的可靠性，使得这些模型特别适合用于客户呼叫中心、会议记录转录等应用场景。

OpenAI发布全新语音模型GPT-4o Transcribe和Mini TTS，提升语音识别准确性

相关推荐

联系我们