人工智能

NVIDIA实现从图像中抽象出概念再生成新的图像 人类幼崽技能AI终于学会了

字号+作者: 来源:量子位 2021-11-30 11:11 评论(创建话题) 收藏成功收藏本文

直到现在,这一点终于被科学家攻克了!最新研究发现,只要给AI喂3-5张图片,AI就能抽象出图片里的物体或风格,再随机生成个性化的新图片。有网友评价:非常酷,这可'...

中文站点,红色文化。欢迎访问pltyw.com


rgF品论天涯网

直到现在,这一点终于被科学家攻克了!rgF品论天涯网

最新研究发现,只要给AI喂3-5张图片,AI就能抽象出图片里的物体或风格,再随机生成个性化的新图片。rgF品论天涯网


rgF品论天涯网

有网友评价:非常酷,这可能是我这几个月来看到的最好的项目。rgF品论天涯网


rgF品论天涯网

它是如何工作的?rgF品论天涯网

让我们先来看几个例子。rgF品论天涯网

当你上传3张不同角度的陶瓷猫照片,可能会得到以下4张新图像:两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒。rgF品论天涯网


rgF品论天涯网

同样的例子还有艺术品:rgF品论天涯网


rgF品论天涯网

铠甲小人:rgF品论天涯网


rgF品论天涯网

碗:rgF品论天涯网


rgF品论天涯网

不只是提取图像中的物体,AI还能生成特定风格的新图像。rgF品论天涯网

例如下图,AI提取了输入图像的绘画风格,生成了一系列该风格的新画作。rgF品论天涯网


rgF品论天涯网

更神奇的是,它还能将两组输入图像相结合,提取一组图像中的物体,再提取另一组的图像风格,两者结合,生成一张崭新的图像。rgF品论天涯网


rgF品论天涯网

除此之外,有了这个功能,你还可以对一些经典图像“下手”,给它们添加一些新元素。rgF品论天涯网


rgF品论天涯网

那么,这么神奇的功能背后是什么原理呢?rgF品论天涯网

尽管近两年来,大规模文本-图像模型,如DALL·E、CLIP、GLIDE等,已经被证明有很强的自然语言推理能力。rgF品论天涯网

但有一点:如果用户提出一些特定的需求,比如生成一张包含我最喜欢的童年玩具的新照片,或者把孩子的涂鸦变成一件艺术品,这些大规模模型都很难做到。rgF品论天涯网

为了应对这一挑战,研究给出了一个固定的、预先训练好的文本-图像模型和一个描述概念的小图像集(用户输入的3-5张图像),目标是找到一个单一的词嵌入,从小集合中重建图像。由于这种嵌入是通过优化过程发现的,于是称之为“文本倒置(TextualInversion)”。rgF品论天涯网

具体来说,就是先抽象出用户输入图像中的物体或风格,并转换为“S∗”这一伪词(pseudo-word),这时,这个伪词就可以被当作任何其他词来处理,最后根据“S∗”组合成的自然语句,生成个性化的新图像,比如:rgF品论天涯网

“一张S∗在海滩上的照片”、”一幅挂在墙上的S∗的油画”、”以S2∗的风格画一幅S1∗”。rgF品论天涯网


rgF品论天涯网

值得注意的是,由于本次研究应用了一个小规模、经过策划的数据集,因此在生成图像时能有效地避免刻板印象。rgF品论天涯网

例如下图,当提示“医生”时,其他模型倾向于生成白种人和男性的图像,而本模型生成图像中则增加了女性和其他种族的人数。rgF品论天涯网


rgF品论天涯网

目前,该项目的代码和数据已开源,感兴趣的小伙伴可以关注一下。rgF品论天涯网

作者介绍rgF品论天涯网

该篇论文来自特拉维夫大学和英伟达的研究团队,作者分别是RinonGal、YuvalAlaluf、YuvalAtzmon、OrPatashnik、AmitH.Bermano、GalChechik、DanielCohen-Or。rgF品论天涯网

第一作者RinonGal,是特拉维夫大学的计算机科学博士生,师从DanielCohen-Or和AmitBermano,主要研究方向是在减少监督的条件下生成2D和3D模型,目前在英伟达工作。rgF品论天涯网


rgF品论天涯网

参考链接:rgF品论天涯网

[1]rgF品论天涯网

https://textual-inversion.github.io/rgF品论天涯网

[2]https://github.com/rinongal/textual_inversionrgF品论天涯网

[3]https://arxiv.org/abs/2208.01618rgF品论天涯网

[4]https://twitter.com/_akhaliq/status/1554630742717726720rgF品论天涯网

[5]https://rinongal.github.io/rgF品论天涯网

中文站点,红色文化。欢迎访问pltyw.com

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取。 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考;转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网站编辑联系,我们将及时更正、删除,谢谢。 本站邮箱[email protected]