OpenAI对ChatGPT的大部分改动都涉及人工智能机器人的功能:它能回答的问题、它能访问的信息以及改进的底层模型。不过这一次,它调整了你使用ChatGPT本身的方式。该公司正在推出一个新版本的服务,让你不仅可以通过在文本框中输入句子,还可以通过大声说话或上传图片来提示人工智能机器人。
据OpenAI称,新功能将在未来两周内向付费使用ChatGPT的用户推出,"不久之后"其他用户也将获得新功能。
语音聊天部分让人非常熟悉:你点击一个按钮并说出你的问题,ChatGPT会将其转换为文本并将其输入大型语言模型,然后得到答案,再将其转换为语音,并大声说出答案。这种感觉就像与Alexa或Google助手交谈一样,只是OpenAI希望,由于底层技术的改进,答案会更好。大多数虚拟助手似乎都在依靠LLM进行改造,而OpenAI则走在了前面。
OpenAI出色的Whisper模型完成了大量的语音转文本工作,而且该公司正在推出一种新的文本转语音模型,据称它可以"通过文本和几秒钟的语音样本生成类似人类的音频"。你可以从五个选项中选择ChatGPT的声音,但OpenAI似乎认为该模型的潜力远不止于此。例如,OpenAI正在与Spotify合作,将播客翻译成其他语言,同时保持播客的声音。合成语音有很多有趣的用途,OpenAI可以成为该行业的重要组成部分。
但事实上,只需几秒钟的音频就能建立一个有能力的合成语音,这也为各种有问题的用例打开了大门。该公司在一篇宣布新功能的博文中说:"这些功能也带来了新的风险,比如恶意行为者有可能冒充公众人物或实施欺诈。正是出于这个原因,OpenAI才没有广泛使用这种模式:它将受到更严格的控制,并仅限于特定的使用案例和合作关系。"
与此同时,图片搜索有点像GoogleLens。你只需拍下感兴趣的照片,ChatGPT就会找出你的问题所在,并做出相应的回应。你还可以使用该应用的绘图工具来帮助清楚地表达你的疑问,或者根据图片说出或输入问题。这就是ChatGPT来来回回的特性所带来的帮助:你可以一边提示机器人,一边完善答案,而不是先搜索,得到错误答案后再搜索。(这与Google在多模态搜索方面的做法很相似)。
显然,图像搜索也有其潜在的问题。其一是当你向聊天机器人提示一个人时,可能会发生什么:OpenAI表示,出于准确性和隐私方面的考虑,它有意限制了ChatGPT"分析和直接陈述人的能力"。这意味着人工智能最科幻的愿景之一--看着一个人说:"那是谁?-这种能力不会很快实现。这也许是件好事。
在ChatGPT首次发布近一年后,OpenAI似乎仍在努力探索如何为其机器人提供更多特性和功能,同时又不带来新的问题和弊端。在这些版本中,该公司试图通过故意限制其新机型的功能来实现这一目标。但这种方法不会永远奏效。随着越来越多的人使用语音控制和图像搜索,随着ChatGPT逐步成为一个真正多模式、实用的虚拟助手,要想继续保持护栏就会越来越难。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】