人工智能

鹅厂最新AI工具刷屏!杨幂寡姐多风格写真秒秒钟生成,LeCun点赞

字号+作者: 来源:量子位公众号 2024-01-17 09:18 评论(创建话题) 收藏成功收藏本文

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:白交,授权站长之家转载发布。大厂们在整活方面开始卷起来了!前脚字节阿里的工具火了,现在腾讯这个新照'...

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:白交,授权站长之家转载发布。Dd5品论天涯网

大厂们在整活方面开始卷起来了!Dd5品论天涯网

前脚字节阿里的工具火了,现在腾讯这个新照片生成应用PhotoMaker直接刷屏,瞧这阵仗……Dd5品论天涯网

图片Dd5品论天涯网

只需上传一张或以上照片,无需额外LoRA训练,就能快速可定制。任何人、任何风格,高保真那种。Dd5品论天涯网

于是秒秒钟,LeCun化身钢铁侠。但随后LeCun转发表示:那个文艺复兴时期的绘画风格是他最喜欢的。Dd5品论天涯网

图片Dd5品论天涯网

杨幂各类风格写真爆出。Dd5品论天涯网

图片Dd5品论天涯网

除此之外,还有更多有意思的功能,目前应用Demo已免费开放体验。Dd5品论天涯网

这就来提前体验一把。Dd5品论天涯网

PhotoMaker刷屏

总结来看,PhotoMaker主要有这样三大功能:Dd5品论天涯网

第一个,可以根据描述生成多种风格个人照片Dd5品论天涯网

比如,你见过这样的黑寡妇吗?Dd5品论天涯网

图片Dd5品论天涯网

就是在二次元里也行的照片,也可以生成。Dd5品论天涯网

图片Dd5品论天涯网

第二个,混合不同人物特征,生成全新人物形态Dd5品论天涯网

脑洞大开一下,奥特曼和乔布斯“生”的孩子,可能长这样???Dd5品论天涯网

图片Dd5品论天涯网

甚至还可以破次元结合!Dd5品论天涯网

图片Dd5品论天涯网

除此之外,还有一些小细节的功能,修改个年龄、性别以及照片年代啥的。Dd5品论天涯网

小时候的马斯克,你见过吗?Dd5品论天涯网

图片Dd5品论天涯网

当LeCun变成几十岁大妈……Dd5品论天涯网

图片Dd5品论天涯网

目前,研究团队给了两个体验版本:官方原版以及风格化版本。其中风格化版,要想实现更好的效果,仅需要更改基础模型并添加LoRA模块。Dd5品论天涯网

不过这两个版本食用起来没有任何区别,主要分为三个步骤。Dd5品论天涯网

图片Dd5品论天涯网

首先,上传你想定制的照片。一张可以,多张也行。Dd5品论天涯网

值得注意的是,他们这里强调了,他们不会进行人脸检测,但上传的图片人脸已经要占据图片大部分。Dd5品论天涯网

其次,输入文字提示,确保在要定制的类别词后面加上触发词:imgDd5品论天涯网

如:男人 img 或女人 img 或女孩 img。Dd5品论天涯网

然后再选择喜欢的样式、风格模版,就可以生成了。Dd5品论天涯网

不过现在实测,效果会出的比较慢,可能是太多人使用了。Dd5品论天涯网

如何实现?

简单来说,PhotoMaker采用了一种简单而有效的表示方法——堆叠ID嵌入。Dd5品论天涯网

它可将多个身份证明(ID)图像的信息合并成统一的数据结构,这样能更好保存单个ID信息的同时,还能整合多个不同ID特征。Dd5品论天涯网

图片Dd5品论天涯网

具体而言,首先,分别从文本编码器和图像编码器中获取文本嵌入和图像嵌入。然后,通过合并相应的类别嵌入(比如性别)和每个图像嵌入,提取融合嵌入。接着,沿长度维度串联所有融合嵌入,形成堆叠ID嵌入。最后再将其输入到Diffusion Model生成图像。Dd5品论天涯网

由于训练过程需要使用按ID分类的数据集,但现有数据集要么没有注释ID信息,要么所包含的场景丰富度有限,比如只关注面部区域。Dd5品论天涯网

为此,研究人员还专门构建了一个以ID为导向的文本图像数据集构建管线,它能按照不同ID进行分类。每个ID都有多幅图像,这些图像包括不同的表情、属性、场景等。Dd5品论天涯网

图片Dd5品论天涯网

需要注意的是,虽然训练过程中使用的是带背景遮蔽的同一ID图像,但在推理过程,可直接输入不同ID、且不带背景遮蔽的图形,来创建新ID。Dd5品论天涯网

实验结果表明,与其他方法相比,PhotoMaker具备高质量和多样化的生成能力,以及可编辑性、保真性。Dd5品论天涯网

此外,这一方法还能实现更多以往难实现的有趣功能。比如改变年龄或性别、将旧照片或艺术作品中的人物还原到现实中以及身份混合等。Dd5品论天涯网

好了,感兴趣的朋友可戳下方链接玩玩~Dd5品论天涯网

https://huggingface.co/spaces/TencentARC/PhotoMakerDd5品论天涯网

https://huggingface.co/spaces/TencentARC/PhotoMaker-StyleDd5品论天涯网

论文链接:Dd5品论天涯网

https://arxiv.org/abs/2312.04461Dd5品论天涯网

项目链接:Dd5品论天涯网

https://github.com/TencentARC/PhotoMaker?tab=readme-ov-file#start-a-local-gradio-demoDd5品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]

相关文章