Ferret-UI是一个新的MLLLM,专门为提高对移动UI屏幕的理解而设计。具备引用、定位和推理能力,处理UI屏幕上的任务。具有“任何分辨率”技术,通过放大细节解决小对象识别问题。涉及任务制定、训练样本收集、模型架构与数据集建立等,表现突出在高级任务的对话能力。
点击前往Ferret-UI官网体验入口
需求人群:
适用于移动UI屏幕的理解和操作,提高对UI元素的识别精度。
使用场景示例:
iOS18 的应用界面自动操作移动应用UI屏幕识别与操作高级任务中的对话能力展示产品特色:
引用、定位和推理能力任何分辨率技术训练样本收集与任务制定模型架构与数据集建立高级任务中的对话能力
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】