要点:
通过利用预训练的文本到图像扩散模型作为先验,提出了Diffusion Models as Prior(DMP)管道,用于各种像素级语义预测任务。
通过在确定性预测任务和随机文本到图像模型之间重新构建扩散过程,通过一系列插值建立输入RGB图像和输出预测分布之间的确定性映射。
通过使用低秩适应来微调预训练模型,保持了泛化性能。在包括3D属性估计、语义分割和内在图像分解在内的五个任务上的广泛实验证明了DMP的有效性。
站长之家(ChinaZ.com)12月7日 消息:Diffusion Models as Prior (DMP)是一种新的方法,它在AI生成的图像中提高了语义预测的准确性。该创新性方法巧妙地将预先训练的文本到图像模型应用于各种任务,例如3D属性估计和语义分割,在有限的训练数据下表现优于现有技术。
项目地址:https://shinying.github.io/dmp/
为了克服确定性任务和随机文本到图像模型之间的不一致性,研究者重新构建了扩散过程,通过插值建立了输入图像和输出预测分布之间的确定性映射。为了保持泛化性能,采用了低秩适应来微调预训练模型。实验证明,DMP在包括3D属性估计、语义分割和内在图像分解在内的多个像素级语义预测任务上表现出色,即使在有限领域训练数据的情况下,也能在任意图像上产生准确的估计,超过了现有的先进算法。
通过对10,000张卧室图像的训练,作者评估了模型在多样场景和任意图像上的域外性能,特别在卧室图像的各种风格上进行了分割评估,DMP在处理其他预训练方案无法处理的图像上表现出忠实的估计能力。
总体而言,这项研究为像素级语义预测任务引入了一种创新的先验方法,为解决领域差异问题提供了新的思路。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】