OpenAI 升级其转录和语音生成 AI 模型-品论天涯网

OpenAI正在为其API引入新的转录和语音生成AI模型，该公司声称这些模型比以前的版本有所改进。对于OpenAI来说，这些模型符合其更广泛的“代理”愿景：构建能够代表用户独立完成任务的自动化系统。“代理”的定义可能存在争议，但OpenAI产品负责人OlivierGodemont描述了一种解释，即可以与企业客户交谈的聊天机器人。82i品论天涯网

OpenAI声称，其新的文本转语音模型“gpt-4o-mini-tts”不仅可以提供更细致入微、听起来更逼真的语音，而且比上一代语音合成模型更“可控”。开发人员可以指导gpt-4o-mini-tts如何用自然语言说话——例如，“像疯狂的科学家一样说话”或“像正念老师一样用平静的声音说话”。

以下是“真实犯罪风格”的饱经风霜的声音：82i品论天涯网

以下是女性“专业”声音的样本：82i品论天涯网

OpenAI产品人员杰夫·哈里斯(JeffHaris)表示，他们的目标是让开发人员能够定制语音“体验”和“语境”。82i品论天涯网

“在不同的情况下，你不想要平淡、单调的声音，”哈里斯继续说道。“如果你在客户支持体验中，并且希望语音因为犯了一个错误而道歉，那么你实际上可以让语音带有这种情感……我们最大的信念是，开发人员和用户不仅希望真正控制所说的内容，还希望控制说话的方式。”82i品论天涯网

至于OpenAI的新语音转文本模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”，它们实际上取代了该公司久经考验的Whisper转录模型。OpenAI声称，新模型经过“多样化、高质量的音频数据集”训练，即使在混乱的环境中也能更好地捕捉带口音和变化的语音。82i品论天涯网

哈里斯补充说，他们也不太可能产生幻觉。众所周知，耳语者倾向于在谈话中捏造词语，甚至是整段话，从种族评论到想象中的医疗治疗，无所不包。82i品论天涯网

“这些模型在这方面比Whisper有了很大改进，”哈里斯说。“确保模型准确对于获得可靠的语音体验至关重要，准确（在这种情况下）意味着模型准确地听到了单词，并且不会填充它们没有听到的细节。”82i品论天涯网

根据OpenAI的内部基准测试，gpt-4o-transcribe是两种转录模型中更准确的一种，对于泰米尔语、泰卢固语、马拉雅拉姆语和卡纳达语等印度语和德拉威语，其“单词错误率”接近30%。这意味着该模型在这些语言中每10个单词中就会漏掉大约3个。82i品论天涯网

OpenAI内部语音识别基准的结果。图片来源： OpenAI

与传统不同的是，OpenAI并不打算公开其新的转录模型。该公司过去曾根据MIT许可发布过Whisper的新版本，供商业使用。82i品论天涯网

哈里斯表示，gpt-4o-transcribe和gpt-4o-mini-transcribe“比Whisper大得多”，因此不适合公开发布。82i品论天涯网

“它们不是那种可以在笔记本电脑上本地运行的模型，就像Whisper一样，”他继续说道。“我们希望确保，如果我们要以开源形式发布产品，我们会深思熟虑，并且我们有一个真正针对特定需求而精心打造的模型。我们认为，终端用户设备是开源模型最有趣的案例之一。”82i品论天涯网