图片质量相当高,可直接用于科普插画,比如:分光三棱镜
继续对话,一致性相当好,比如让他画成书册:
只能说:斗宗强者,竟恐怖如斯,OpenAI的箱子里,还是有东西的。
让我们细致看一看:本次更新,突破了以往的哪些边界。
文本渲染绝佳
一图胜千言,来感受一下。比如让他根据对话内容,来画一个菜单(文字是单独给的)
或者让他去画一个婚礼邀请(同样,文字单独给到)
多轮生成很棒
这套图像生成,是GPT-4o的原生功能,可通过对话,逐步进行图像完善,并保持内容一致。比如这个:
也比如我把橘猫放在了魔兽世界里
甚至来说,我还可以要求他生成png透明版
指令遵循很强
在生成图像的时候,4o的指令遵循能力很强,可以处理包含10-20个不同物体的场景,并对物体与特征及关系的紧密绑定允许更好的控制。
比如:只有一滴红酒的空玻璃杯
prompt:showmeawineglasswithonlythetiniestdropofredwineinit.
比如:看不见的大象
Prompt:Weneedevidencethereisacurrentlypresentinvisibleelephant.Considerwhatanelephantisanddoesintheenvironment,thenshowusthat,perhapsmid-process-buttheelephantitselfisnotshownatall
我还让他给画了个撸猫指南
Prompt:4-stepphotoguideonhowtopetacat
上下文关联
如果很清楚知道自己要什么,可以直接上传图片给ChatGPT,让参考风格、精准输出。比如给一些风格插画,然后要求GPT来生成一个三角形轮子的自行车
吐槽:为啥是英国专利
而我,作为炉石玩家,我让ChatGPT来生成一份奥特曼的专属卡片
Hhhhh太真实了,GPT觉得奥特曼上不了传说,种族属于“战吼”(特别能逼逼)
然后,还可以让他做个实体版...稀有度变成了普通,技能变成了嘲讽,hhhhh认真的吗?
贯通现实知识
4o的绘图,能够从大模型中直接获取到知识,生成与现实世界知识相符的图像,如:可以直接使用的鸡尾酒配方
Prompt:Makemeaprofessionallyshotphotorealisticdiagramofthetopsellingcocktailsinmybarwithrecipeslabeledoneachdrink.puttherecipesonhandwrittencardsinfrontofeachdrink.Thecardsarebrown,andthetextisblack.Backgroundiswhite.Titleis"4mostpopularcocktails"
制作一款披萨
Prompt:AgraphicofanItalianchefgivinginstructionsonhowtomakeauthenticpepperonipizza
动量定理和冲量定理
Prompt:画一个有关冲量定理和动量定理的infographic
Prompt:画一个肯德基的简体中文菜单,其中有一个套餐叫做“V我50”
风格多样
4o的这个模型,能轻松绘制各种风格的图像。比如我让他用莫奈的风格,来画一只猫
Prompt:一只猫,莫奈风格
幻想风格的海豚地铁
Prompt:Arealisticunderwaterscenewithdolphinsswimmingthroughthewindowsofanabandonedsubwaycar,withbubblesanddetailedwaterflowaccuratelysimulated.
奥特曼在采棉花,颇有纪录片的范儿
Prompt:山姆奥特曼正在采棉花
一些限制
当然,这个模型也存在一些问题:
对于长图像,会出现剪裁问题
可能产生幻觉,然后开始胡编乱造
难以准确渲染超过20个不同概念
多语言文本渲染:处理非拉丁语言(比如中文),不够准确
对特定部分要求编辑,可能会出bug
密集文本下,效果会不好
以及...出于安全考虑,很多内容不允许被生成,比如:米老鼠大战皮卡丘的钞票
最后
OpenAI这次的更新的确非常棒,真没得黑。
这项功能已经通过ChatGPT&Sora向Plus、Pro、Team和免费用户推出,替换DaLLE作为默认图像生成器。,Enterprise和Edu用户也将很快更新,API也将在数周内进行更新。
所以,不要小瞧OpenAI,箱子里有货的。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】