人工智能

苹果推出理解、转化模型ReALM,性能超GPT-4

字号+作者: 来源:​ AIGC开放社区公众号 2024-04-30 14:31 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权站长之家转载发布。苹果的研究人员推出了一种创新模型ReALM,可将参考解析问'...

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权站长之家转载发布。c7q品论天涯网

苹果的研究人员推出了一种创新模型ReALM,可将参考解析问题转化为语言建模问题,能极大提升AI助手处理很多描述复杂或模糊不清的内容。c7q品论天涯网

例如,我们网购时选好了橘子、鸭梨、苹果、橘子汽水、洗发水、短袖、拖鞋等物品,然后告诉AI助手只结算水果。这时传统的AI助手可能会将橘子和橘子汽水混淆进行一起结算。c7q品论天涯网

而ReALM模型会重建手机或者PC等平台上的屏幕关键信息,并将其转化成一种可理解的文本,再用大语言模型去解读用户的需求,这样就可以提升操作的准确率避免出现错误。c7q品论天涯网

根据测试数据显示,ReALM的性能全方位超越了同类模型MARRS;10亿参数和30亿参数在三项测试中超过GPT-4,Unseen测试几乎差不多,这也提现了ReALM非常强悍的理解和转化能力。c7q品论天涯网

论文地址:https://arxiv.org/abs/2403.20329c7q品论天涯网

图片c7q品论天涯网

ReALM的核心方法是识别并重建屏幕(手机、PC、平板电脑等),通过使用解析出的实体及其位置生成屏幕的纯文本表示。c7q品论天涯网

然后对屏幕上的实体部分进行标记,以便大语言模型能够在上下文中了解实体出现的位置以及周围的文本内容。c7q品论天涯网

图片c7q品论天涯网

屏幕解析c7q品论天涯网

屏幕解析模块是ReALM的核心模块之一,主要负责从用户的屏幕上识别相关信息包括文本框、按钮、图标等元素,并提取它们的文本内容、类型和位置信息等。这些信息被用来构建一个结构化的屏幕表示,为后续的参考解析提供基础。c7q品论天涯网

首先通过OCR(光学字符识别)在屏幕上识别和检测文本实体,并将其转换为可编辑的文本格式c7q品论天涯网

一旦文本被检测到,屏幕解析模块需要确定每个文本实体的类型,包括电话号码、电子邮件地址、URL、日期时间等,再通过预先定义的模式匹配或机器学习模型进行实体分类。c7q品论天涯网

图片c7q品论天涯网

除了识别文本内容和类型,屏幕解析模块还需要确定每个实体在屏幕上的确切位置。通常是一个矩形区域,围绕实体文本并定义了其在屏幕上的几何位置。c7q品论天涯网

图片c7q品论天涯网

此外,屏幕上的实体往往不是孤立存在的,可能与其他元素之间有关系,例如,按钮、图标菜单选项等。c7q品论天涯网

ReALM会用大语言模型去理解这些元素之间的关系,以便正确解释、还原用户的文本查询或语音指令。c7q品论天涯网

解析输出c7q品论天涯网

解析输出的主要作用理解用户查询中的参考内容,并找到与之匹配的正确实体,然后完成最终的操作输出。c7q品论天涯网

解析输出会接收到屏幕解析、大语言模型等其他模块的预测结果。这些结果通常是一个实体列表包括文本、URL、书籍、按钮、图标等,每个实体都有一个与之相关的置信度分数。c7q品论天涯网

需要注意的是,如果用户的查询中有多个可能的参考实体(例如,开头提到的那个橘子和橘子汽水的案例),解析输出模块需要解决这些实体之间的冲突。所以,ReALM会比较置信度分数、考虑实体类型和上下文信息等c7q品论天涯网

图片c7q品论天涯网

在确定了最终的实体后,解析输出模块需要将这些实体格式化为一种易于理解和操作的形式。可能是一个简单的文本回复,也可能是一个更复杂的数据结构,用于整体的操作输出或提供给其他模块使用。c7q品论天涯网

图片c7q品论天涯网

ReALM还提供了一个可视化用户交互模块,主要负责接收用户的查询信息,然后将查询和屏幕上的实体信息传递给大语言模型,并展示参考解析的结果。该模块还能通过用户的反馈机制,帮助模型进行自我学习改进其解析能力。c7q品论天涯网

本文素材来源ReALM论文,如有侵权请联系删除c7q品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]