人工智能

智谱 AI 开源视觉语言模型 CogAgent 支持GUI图形界面问答

字号+作者: 来源:站长之家 2023-12-21 08:33 评论(创建话题) 收藏成功收藏本文

站长之家(ChinaZ.com)12月21日 消息:智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准'...

站长之家(ChinaZ.com)12月21日 消息:智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。w3i品论天涯网

它还支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。w3i品论天涯网

微信截图_20231221083343.pngw3i品论天涯网

模型可以通过上传截图来进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。w3i品论天涯网

CogAgent 还支持 OCR 相关任务,通过预训练和微调,其能力得到了显著提升。w3i品论天涯网

Github:w3i品论天涯网

https://github.com/CogNLP/CogAGENTw3i品论天涯网

cogagent-chat:w3i品论天涯网

https://modelscope.cn/models/ZhipuAI/cogagent-chat/summaryw3i品论天涯网

cogagent-vqa:w3i品论天涯网

https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summaryw3i品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]

相关文章