以文本翻译工具闻名的AI公司DeepL今日发布一套语音到语音翻译产品组合,进军实时语音翻译市场,覆盖线上会议、移动与网页对话,以及一线员工通过定制应用参与的群组沟通等多种场景。同时,DeepL还推出面向开发者和企业的API,支持在其技术之上为呼叫中心等业务定制专用语音翻译方案。
DeepL首席执行官雅瑞克·库特洛夫斯基(JarekKutylowski)在接受采访时表示,在深耕文本翻译多年之后,语音是公司“顺理成章的下一步”。他强调,DeepL在文本和文档翻译上已经走得很远,但在实时语音翻译领域,“还缺少一款真正出色的产品”,这也是公司决定切入的原因。
库特洛夫斯基指出,打造实时翻译产品的核心难点在于如何在降低延迟和保持准确性之间取得平衡。所谓延迟,是指从用户开口说话到译文语音播放之间的时间差,在会议和对话场景中,这一差值越小,用户的交流体验就越接近“同声对话”。
此次发布中,DeepL面向Zoom和MicrosoftTeams推出插件,让听众在远程会议中,可以一边听各方用母语发言,一边实时听到翻译语音,或在屏幕上阅读实时翻译字幕。该计划目前仍处于早期测试阶段,DeepL正邀请企业加入候补名单,以便率先试用这项功能。此外,公司还提供面向移动端和网页的对话产品,支持用户在当面或远程场景中进行跨语言交流。
对于培训、研讨会等多人的线下或线上群组场景,DeepL允许参与者通过扫描二维码加入同一会话,每个人都可以在自己的设备上接收对应语言的翻译内容。DeepL表示,其语音到语音技术还可以学习和适配自定义词汇,例如垂直行业术语、公司名称以及个人姓名等,以提升在专业场景中的使用效果。
库特洛夫斯基认为,AI正在重塑未来几年客户服务行业的形态,一个高质量的翻译层可以帮助企业在缺乏本地语种人才、招聘成本高企的市场中,依旧提供多语种服务支持。在这样的愿景下,DeepL希望自身的语音技术不仅服务于会议场景,也能成为客服中心和全球化企业的基础语言基础设施之一。
在技术路线上,DeepL称当前产品由自研的完整“语音到语音”技术栈驱动,但现阶段仍采用“语音转文本—文本翻译—文本转语音”的三步流程。公司认为,正是因为长期深耕文本翻译,使其在整体翻译质量上具有优势。展望未来,DeepL计划开发端到端语音翻译模型,省略文本中间步骤,以期在延迟和自然度上更进一步。
在语音与翻译领域,DeepL面临来自多家创业公司的竞争。其中,Sanas去年从QuadrilleCapital和Teleperformance融资6500万美元,主攻实时修改说话者口音的技术,主要面向呼叫中心坐席。总部位于迪拜的Camb.AI则面向媒体与娱乐公司,提供语音合成及翻译服务,帮助客户在大规模内容中完成配音和本地化。由Reddit联合创始人AlexisOhanian的基金SevenSevenSix投资的Palabra,则打造实时语音翻译引擎,强调在翻译过程中尽量保留说话者原本的声音特征,与DeepL正在构建的能力形成更直接的竞争关系。
在文本翻译市场站稳脚跟之后,DeepL正试图通过语音产品扩展自身边界,将技术延伸到会议协作、客户服务和一线作业场景中。随着更多企业寻求以AI降低跨语言沟通成本,实时语音翻译有望成为新一轮竞争焦点,而DeepL正在这一赛道上加速布局。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】