ChatGPT多模态解禁：拍图即生代码，古卷手稿一眼识别，图表总结超6-品论天涯网

这周三，OpenAI刚刚宣布解禁ChatGPT多模态能力。如今，一上线，网友们瞬间玩疯了。接下来，一起看看，ChatGPT的识图能力，究竟有多强？Q6c品论天涯网

01Q6c品论天涯网

拍照传图，即生代码Q6c品论天涯网

一位网友录制了一段上传开会时的一张白板图，然后让ChatGPT写出代码。Q6c品论天涯网

Q6c品论天涯网

还有，你可以上传一张手绘的草稿图，然后要求ChatGPT在HTML创建网页。Q6c品论天涯网

Q6c品论天涯网

嗖嗖嗖，代码分分钟都出来了。Q6c品论天涯网

这简直就是，今年GPT-4刚刚发布时，GregBrockman所展示的多模态能力。Q6c品论天涯网

Q6c品论天涯网

再比如，把你的todolist本子拍一张照片。Q6c品论天涯网

Q6c品论天涯网

然后让GPT-4做一个PythonTkinterGUI，然后就实现了...Q6c品论天涯网

Q6c品论天涯网

02Q6c品论天涯网

古卷手稿，一眼转译Q6c品论天涯网

再来一张来自17世纪的炼金术师RobertBoyle的手稿图，GPT-4能不能读懂它？Q6c品论天涯网

Q6c品论天涯网

这简直对它来说，小菜一碟。Q6c品论天涯网

Q6c品论天涯网

在比如“加泰罗尼亚语关于药用木乃伊的药物手册”。Q6c品论天涯网

Q6c品论天涯网

ChatGPT同样能够转录并翻译出来。Q6c品论天涯网

Q6c品论天涯网

来自UCSC的历史学副教授BenjaminBreen表示，Q6c品论天涯网

这将对历史学家产生重大影响。试想一下，一个定制的多模态GPT-4可以对一组特定的手稿进行训练。它不仅可以转录，还可以翻译和分类。(正是这一点，不使用LLM进行写作，在我看来才是一件大事）。Q6c品论天涯网

Q6c品论天涯网

03Q6c品论天涯网

图表总结也很6Q6c品论天涯网

你还可以命令GPT-4根据图表提取数据。Q6c品论天涯网

Q6c品论天涯网

然后可以创建Python代码来复制图表，让它更像图表。Q6c品论天涯网

Q6c品论天涯网

再把股票趋势图丢给它，还能分析总结特征。Q6c品论天涯网

Q6c品论天涯网

04Q6c品论天涯网

识图“智商超群”Q6c品论天涯网

给GPT-4一张抽象的图。Q6c品论天涯网

它竟然可以准确的识别出这4张图想表达的“沟通的重要性”的隐喻，这也太离谱了。Q6c品论天涯网

Q6c品论天涯网

GPT-4V甚至可以阅读医生的字迹。Q6c品论天涯网

Q6c品论天涯网

还有日本网友直接用“七龙珠”中孙悟空考ChatGPT了。Q6c品论天涯网

Q6c品论天涯网

还有各种“你是不是人”的验证码。Q6c品论天涯网

Q6c品论天涯网

上传一张自己的作品，GPT-4还能为你提出改进建议。Q6c品论天涯网

Q6c品论天涯网

还有网友发现，GPT-4V对kosmos-1论文中的这道题给出了正确答案，但推理过程却出现了错误。Q6c品论天涯网

Q6c品论天涯网

有了这个功能，小朋友们再也不用做作业了。Q6c品论天涯网

Q6c品论天涯网

05Q6c品论天涯网

网友大波总结Q6c品论天涯网

除了以上体验之外，还有网友写了一篇长文，介绍了自己对GPT-4V的测试。Q6c品论天涯网

Q6c品论天涯网

测试一：视觉问答Q6c品论天涯网

给一个表情包，看看GPT-4V理解程度有多好？Q6c品论天涯网

Q6c品论天涯网

GPT-4V成功地解释了为什么有趣，并提到了图片的各个组成部分以及它们之间的联系。Q6c品论天涯网

值得注意的是，所提供的括号备注中，GPT-4V能够读懂并利用文字做出回应。Q6c品论天涯网

尽管如此，GPT-4V还是犯了一个错误，炸鸡标记为“NVIDIABURGER”，而不是“GPU”。Q6c品论天涯网

然后，再用硬币，一张美国便士的照片测试。GPT-4V能够成功识别硬币的来源和面值。Q6c品论天涯网

Q6c品论天涯网

但如果是多枚硬币图片，并问GPT-4V，我有多少钱？Q6c品论天涯网

这时，它只能够识别硬币的数量，但无法确定货币类型。Q6c品论天涯网

Q6c品论天涯网

测试二：OCR识别Q6c品论天涯网

截取网页中的文本图像上传，GPT-4V可以很好地读出内容。Q6c品论天涯网

Q6c品论天涯网

测试三：数学OCRQ6c品论天涯网

数学OCR是一种专门针对数学方程的光学字符识别的特殊形式。Q6c品论天涯网

网友向GPT-4V提出了一个数学问题，并用文档截图形式呈现出来。Q6c品论天涯网

这个问题涉及在给定2个角度的情况下计算拉链线的长度，在图像上提示“解决它”。Q6c品论天涯网

Q6c品论天涯网

模型识别出的问题可以用三角法求解，识别出要使用的函数，并逐步提出如何解决问题的走查。然后，GPT-4V提供了问题的正确答案。Q6c品论天涯网

话虽如此，GPT-4V系统卡指出模型可能会遗漏数学符号。Q6c品论天涯网

不同的测试，包括用手写在纸上的方程或表达式的测试，可能表明模型回答数学问题的能力不足。Q6c品论天涯网

测试四：对象检测Q6c品论天涯网

让GPT-4V检测图像中的狗，并提供与狗的位置相关的x_min、y_min、x_max和y_max值，GPT-4V返回的边界框坐标与狗的位置不匹配。Q6c品论天涯网

Q6c品论天涯网

虽然GPT-4V在回答图像问题方面的能力非常强大，但在你若是想知道一个物体在图中的位置，该模型不能替代微调目标检测模型。Q6c品论天涯网

测试五：验证码Q6c品论天涯网

发现GPT-4V能够识别图像中包含验证码，但经常无法通过测试。Q6c品论天涯网

在一个选取红绿灯格子的示例中，GPT-4V少选了一些包含红绿灯的格子。Q6c品论天涯网

Q6c品论天涯网

测试六：填字游戏和数独Q6c品论天涯网

在数独测试中，GPT-4V识别了游戏，但误解了棋盘的结构，因此返回了不准确的结果。Q6c品论天涯网

Q6c品论天涯网

顺带提一句，ChatGPT联网功能又回来了。Q6c品论天涯网

Q6c品论天涯网