ChatGPT推出语音和图像功能现在可以用不同形式的命令向AI提问-品论天涯网

OpenAI对ChatGPT的大部分改动都涉及人工智能机器人的功能：它能回答的问题、它能访问的信息以及改进的底层模型。不过这一次，它调整了你使用ChatGPT本身的方式。该公司正在推出一个新版本的服务，让你不仅可以通过在文本框中输入句子，还可以通过大声说话或上传图片来提示人工智能机器人。rYV品论天涯网

据OpenAI称，新功能将在未来两周内向付费使用ChatGPT的用户推出，"不久之后"其他用户也将获得新功能。rYV品论天涯网

rYV品论天涯网

语音聊天部分让人非常熟悉：你点击一个按钮并说出你的问题，ChatGPT会将其转换为文本并将其输入大型语言模型，然后得到答案，再将其转换为语音，并大声说出答案。这种感觉就像与Alexa或Google助手交谈一样，只是OpenAI希望，由于底层技术的改进，答案会更好。大多数虚拟助手似乎都在依靠LLM进行改造，而OpenAI则走在了前面。rYV品论天涯网

OpenAI出色的Whisper模型完成了大量的语音转文本工作，而且该公司正在推出一种新的文本转语音模型，据称它可以"通过文本和几秒钟的语音样本生成类似人类的音频"。你可以从五个选项中选择ChatGPT的声音，但OpenAI似乎认为该模型的潜力远不止于此。例如，OpenAI正在与Spotify合作，将播客翻译成其他语言，同时保持播客的声音。合成语音有很多有趣的用途，OpenAI可以成为该行业的重要组成部分。rYV品论天涯网

但事实上，只需几秒钟的音频就能建立一个有能力的合成语音，这也为各种有问题的用例打开了大门。该公司在一篇宣布新功能的博文中说："这些功能也带来了新的风险，比如恶意行为者有可能冒充公众人物或实施欺诈。正是出于这个原因，OpenAI才没有广泛使用这种模式：它将受到更严格的控制，并仅限于特定的使用案例和合作关系。"rYV品论天涯网

与此同时，图片搜索有点像GoogleLens。你只需拍下感兴趣的照片，ChatGPT就会找出你的问题所在，并做出相应的回应。你还可以使用该应用的绘图工具来帮助清楚地表达你的疑问，或者根据图片说出或输入问题。这就是ChatGPT来来回回的特性所带来的帮助：你可以一边提示机器人，一边完善答案，而不是先搜索，得到错误答案后再搜索。(这与Google在多模态搜索方面的做法很相似）。rYV品论天涯网

显然，图像搜索也有其潜在的问题。其一是当你向聊天机器人提示一个人时，可能会发生什么：OpenAI表示，出于准确性和隐私方面的考虑，它有意限制了ChatGPT"分析和直接陈述人的能力"。这意味着人工智能最科幻的愿景之一--看着一个人说："那是谁？-这种能力不会很快实现。这也许是件好事。rYV品论天涯网

在ChatGPT首次发布近一年后，OpenAI似乎仍在努力探索如何为其机器人提供更多特性和功能，同时又不带来新的问题和弊端。在这些版本中，该公司试图通过故意限制其新机型的功能来实现这一目标。但这种方法不会永远奏效。随着越来越多的人使用语音控制和图像搜索，随着ChatGPT逐步成为一个真正多模式、实用的虚拟助手，要想继续保持护栏就会越来越难。rYV品论天涯网

ChatGPT推出语音和图像功能 现在可以用不同形式的命令向AI提问

ChatGPT推出语音和图像功能现在可以用不同形式的命令向AI提问