ControlNet作者新作：AI绘画能分图层了，项目未开源就斩获660 Star-品论天涯网

声明:本文来自微信公众号“量子位”（ID:QbitAI），作者:金磊，，授权站长之家转载发布。gx7品论天涯网

“绝不是简单的抠图。”gx7品论天涯网

ControlNet作者最新推出的一项研究受到了一波高度关注——gx7品论天涯网

给一句prompt，用Stable Diffusion可以直接生成单个或多个透明图层（PNG）!gx7品论天涯网

例如来一句:gx7品论天涯网

头发凌乱的女性，在卧室里。gx7品论天涯网
Woman with messy hair， in the bedroom.gx7品论天涯网

gx7品论天涯网

可以看到，AI不仅生成了符合prompt的完整图像，就连背景和人物也能分开。gx7品论天涯网

而且把人物PNG图像放大细看，发丝那叫一个根根分明。gx7品论天涯网

gx7品论天涯网

再看一个例子:gx7品论天涯网

燃烧的柴火，在一张桌子上，在乡下。gx7品论天涯网
Burning firewood， on a table， in the countryside.gx7品论天涯网

gx7品论天涯网

同样，放大“燃烧的火柴”的PNG，就连火焰周边的黑烟都能分离出来:gx7品论天涯网

gx7品论天涯网

这就是ControlNet作者提出的新方法——LayerDiffusion，允许大规模预训练的潜在扩散模型（Latent Diffusion Model）生成透明图像。gx7品论天涯网

gx7品论天涯网

值得再强调一遍的是，LayerDiffusion绝不是抠图那么简单，重点在于生成。gx7品论天涯网

正如网友所说:gx7品论天涯网

这是现在动画、视频制作最核心的工序之一。这一步能够过，可以说SD一致性就不再是问题了。gx7品论天涯网

gx7品论天涯网

还有网友以为类似这样的工作并不难，只是“顺便加个alpha通道”的事，但令他意外的是:gx7品论天涯网

结果这么久才有出来的。gx7品论天涯网

gx7品论天涯网

那么LayerDiffusion到底是如何实现的呢?gx7品论天涯网

PNG，现在开始走生成路线了

LayerDiffusion的核心，是一种叫做潜在透明度（latent transparency）的方法。gx7品论天涯网

简单来说，它可以允许在不破坏预训练潜在扩散模型（如Stable Diffusion）的潜在分布的前提下，为模型添加透明度。gx7品论天涯网

gx7品论天涯网

在具体实现上，可以理解为在潜在图像上添加一个精心设计过的小扰动（offset），这种扰动被编码为一个额外的通道，与RGB通道一起构成完整的潜在图像。gx7品论天涯网

为了实现透明度的编码和解码，作者训练了两个独立的神经网络模型:一个是潜在透明度编码器（latent transparency encoder），另一个是潜在透明度解码器（latent transparency decoder）。gx7品论天涯网

编码器接收原始图像的RGB通道和alpha通道作为输入，将透明度信息转换为潜在空间中的一个偏移量。gx7品论天涯网

而解码器则接收调整后的潜在图像和重建的RGB图像，从潜在空间中提取出透明度信息，以重建原始的透明图像。gx7品论天涯网

为了确保添加的潜在透明度不会破坏预训练模型的潜在分布，作者提出了一种“无害性”（harmlessness）度量。gx7品论天涯网

这个度量通过比较原始预训练模型的解码器对调整后潜在图像的解码结果与原始图像的差异，来评估潜在透明度的影响。gx7品论天涯网

gx7品论天涯网

在训练过程中，作者还使用了一种联合损失函数（joint loss function），它结合了重建损失(reconstruction loss)、身份损失(identity loss)和判别器损失(discriminator loss)。gx7品论天涯网

它们的作用分别是:gx7品论天涯网

重建损失:用于确保解码后的图像与原始图像尽可能相似;gx7品论天涯网

身份损失:用于确保调整后的潜在图像能够被预训练的解码器正确解码;gx7品论天涯网

判别器损失:则是用于提高生成图像的真实感。gx7品论天涯网

通过这种方法，任何潜在扩散模型都可以被转换为透明图像生成器，只需对其进行微调以适应调整后的潜在空间。gx7品论天涯网

gx7品论天涯网

潜在透明度的概念还可以扩展到生成多个透明图层，以及与其他条件控制系统结合，实现更复杂的图像生成任务，如前景/背景条件生成、联合图层生成、图层内容的结构控制等。gx7品论天涯网

gx7品论天涯网

值得一提的是，作者还展示了如何把ControlNet引入进来，丰富LayerDiffusion的功能:gx7品论天涯网

gx7品论天涯网

与传统抠图的区别

至于LayerDiffusion与传统抠图上的区别，我们可以简单归整为以下几点。gx7品论天涯网

原生生成 vs. 后处理gx7品论天涯网

LayerDiffusion是一种原生的透明图像生成方法，它直接在生成过程中考虑并编码透明度信息。这意味着模型在生成图像的同时就创建了透明度通道（alpha channel），从而产生了具有透明度的图像。gx7品论天涯网

传统的抠图方法通常涉及先生成或获取一个图像，然后通过图像编辑技术（如色键、边缘检测、用户指定的遮罩等）来分离前景和背景。这种方法通常需要额外的步骤来处理透明度，并且可能在复杂背景或边缘处产生不自然的过渡。gx7品论天涯网

潜在空间操作 vs. 像素空间操作gx7品论天涯网

LayerDiffusion在潜在空间（latent space）中进行操作，这是一个中间表示，它允许模型学习并生成更复杂的图像特征。通过在潜在空间中编码透明度，模型可以在生成过程中自然地处理透明度，而不需要在像素级别上进行复杂的计算。gx7品论天涯网

传统的抠图技术通常在像素空间中进行，这可能涉及到对原始图像的直接编辑，如颜色替换、边缘平滑等。这些方法可能在处理半透明效果（如火焰、烟雾）或复杂边缘时遇到困难。gx7品论天涯网

数据集和训练gx7品论天涯网

LayerDiffusion使用了一个大规模的数据集进行训练，这个数据集包含了透明图像对，使得模型能够学习到生成高质量透明图像所需的复杂分布。gx7品论天涯网

传统的抠图方法可能依赖于较小的数据集或者特定的训练集，这可能限制了它们处理多样化场景的能力。gx7品论天涯网

灵活性和控制gx7品论天涯网

LayerDiffusion提供了更高的灵活性和控制能力，因为它允许用户通过文本提示（text prompts）来指导图像的生成，并且可以生成多个图层，这些图层可以被混合和组合以创建复杂的场景。gx7品论天涯网

传统的抠图方法可能在控制方面更为有限，尤其是在处理复杂的图像内容和透明度时。gx7品论天涯网

质量比较gx7品论天涯网

用户研究显示，LayerDiffusion生成的透明图像在大多数情况下（97%）被用户偏好，这表明其生成的透明内容在视觉上与商业透明资产相当，甚至可能更优。gx7品论天涯网

传统的抠图方法可能在某些情况下无法达到同样的质量，尤其是在处理具有挑战性的透明度和边缘时。gx7品论天涯网

总而言之，LayerDiffusion提供的是一种更先进且灵活的方法来生成和处理透明图像。gx7品论天涯网

它在生成过程中直接编码透明度，并且能够产生高质量的结果，这在传统的抠图方法中是很难实现的。gx7品论天涯网

关于作者

正如我们刚才提到的，这项研究的作者之一，正是大名鼎鼎的ControlNet的发明人——张吕敏。gx7品论天涯网

他本科就毕业于苏州大学，大一的时候就发表了与AI绘画相关的论文，本科期间更是发了10篇顶会一作。gx7品论天涯网

目前张吕敏在斯坦福大学攻读博士，但他为人可以说是非常低调，连Google Scholar都没有注册。gx7品论天涯网

gx7品论天涯网

就目前来看，LayerDiffusion在GitHub中并没有开源，但即便如此也挡不住大家的关注，已经斩获660星。gx7品论天涯网

gx7品论天涯网

毕竟张吕敏也被网友调侃为“时间管理大师”，对LayerDiffusion感兴趣的小伙伴可以提前mark一波了。gx7品论天涯网

gx7品论天涯网

参考链接:gx7品论天涯网

[1]https://arxiv.org/abs/2402.17113gx7品论天涯网

[2]https://twitter.com/op7418/status/1762729887490806159gx7品论天涯网

[3]https://github.com/layerdiffusion/LayerDiffusiongx7品论天涯网