人工智能

OpenAI推出DALL-E 3 API和新版文本到语音模型

字号+作者: 来源:cnBeta.COM 2023-11-07 03:47 评论(创建话题) 收藏成功收藏本文

OpenAI在其首次开发者日上推出了一系列新的API。DALL-E3是OpenAI的文本到图像模型,在首次应用于ChatGPT和BingChat之后,现在可以通过API使用。OpenAI表示'...

OpenAI在其首次开发者日上推出了一系列新的API。DALL-E3是OpenAI的文本到图像模型,在首次应用于ChatGPT和BingChat之后,现在可以通过API使用。OpenAI表示,与前一版本的DALL-E(如DALL-E2)类似,API包含了内置内容节制功能,有助于防止滥用。gu5品论天涯网

gu5品论天涯网

DALL-E3API提供不同的格式和质量选项,分辨率从1024×1024到1792×1024,每张生成图片的价格从0.04美元起。不过,与DALL-E2API相比,它的功能还有些有限--至少目前是这样。gu5品论天涯网

与DALL-E2API不同的是,DALL-E3不能用来创建编辑版本的图像,即让模型替换已有图像的某些区域或创建已有图像的变体。OpenAI表示,当生成请求被发送到DALL-E3时,它会"出于安全考虑"和"增加更多细节"而自动重写,这可能会导致不那么精确的结果,具体取决于提示。gu5品论天涯网

在其他方面,OpenAI现在提供了一个文本到语音API--AudioAPI,它提供了六种预设语音--Alloy、Echo、Fable、Onyx、Nova和Shimer--供用户选择,还提供了两种生成式AI模型变体。它从今天开始上线,每次输入1000个字符的价格为0.015美元。gu5品论天涯网

OpenAI的CEOSamAltman在台上说:"这比我们听到的其他任何东西都要自然得多,这可以让应用程序的交互更自然,更易于使用。它还能解锁很多用例,比如语言学习和语音辅助。"gu5品论天涯网

与某些语音合成平台和工具不同的是,OpenAI并不提供控制所生成音频的情感影响的方法。在音频API的文档中,该公司指出,"某些因素"可能会影响生成的声音听起来如何,比如朗读文本中的大小写或语法,但OpenAI在这方面的内部测试结果"好坏参半"。gu5品论天涯网

OpenAI要求使用人工智能的开发者告知用户音频是由人工智能生成的。gu5品论天涯网

在一份相关的公告中,OpenAI推出了其开源自动语音识别模型Whisperlarge-v3的下一个版本,该公司声称该模型在各种语言中的性能都有所提高。该版本已在GitHub上发布,采用许可授权。gu5品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]