人工智能

研究人员尝试用稳定扩散方法压缩图像 结果竟然优于JPEG

字号+作者: 来源:cnBeta.COM 2022-09-28 20:43 评论(创建话题) 收藏成功收藏本文

上周,瑞士软件工程师MatthiasBühlmann发现——流行的图像合成模型“StableDiffusion”,可实现较现有的JPEG或WebP格式更高的位图图像压缩比、且视觉伪影'...

www.pltyw.com,pltyw.com

上周,瑞士软件工程师MatthiasBühlmann发现——流行的图像合成模型“StableDiffusion”,可实现较现有的JPEG或WebP格式更高的位图图像压缩比、且视觉伪影也更少。即便如此,StableDiffusion也不是那么完美。作为一种AI图像合成模型,其通常根据文本描述(所谓的“提示”)而生成图像。Eh1品论天涯网

Eh1品论天涯网

用锯齿彩块来描绘的图像压缩概念(viaArsTechnica)Eh1品论天涯网

AI模型通过研究从互联网上提取的数百万张图像来学习这种能力,在训练过程中,模型在图像和相关词之间建立了统计关联。Eh1品论天涯网

然后对每张图像的关键信息添加更小的“表示”和赋予“权重”,后者代表了AI图像模型所掌握的数学值。Eh1品论天涯网

当稳定扩散分析、并将图像“压缩”为权重形式时,它们就处在了所谓的“潜在空间”中——它们以一种模糊潜力的形式存在,且能够在解码时于图像中复现。Eh1品论天涯网

这项研究中用到的StableDiffusion1.4,其权重文件大小约为4GB——代表了该AI模型掌握的数亿张图像的知识。Eh1品论天涯网

Eh1品论天涯网

使用稳定扩散压缩图像的示例Eh1品论天涯网

尽管大多数人使用了带文本提示的稳定扩散,但Bühlmann还是斩断了文本编码器、而是强制通过稳定扩散图像编码器来处理。Eh1品论天涯网

该过程将低精度的512×512图像、转换为更高精度的64×64潜在图像空间表示。此时图像存在的数据量较原始文件小得多,但仍可将之解码扩展回512×512图像、并获得相当良好的结果。Eh1品论天涯网

测试期间,Bühlmann发现使用稳定扩散压缩的新图像,可在更高的压缩比(更小的文件大小)下,主观上看起来较JPEG或WebP更佳。Eh1品论天涯网

以这张美洲鸵的照片为例,其原始文件大小为768KB。尽管JPEG/WebP格式分别可压缩到5.68和5.71KB,但稳定扩散方法可进一步压缩到4.98KB。Eh1品论天涯网

Eh1品论天涯网

与对照的图像压缩格式相比,稳定扩散似乎具有更多可分辨的细节、以及明显更少的压缩伪影。Eh1品论天涯网

不过Bühlmann也指出了现阶段的一个很大局限性——它不太适合面容或文本,且在某些情况下会让解码图像中的细节特征产生“幻象”。Eh1品论天涯网

这些特征可能在源图像中并不存在,更别提解码需要动用高达4GB的稳定扩散权重文件、以及额外的解码时间。Eh1品论天涯网

即便如此,这种非常规稳定扩散用例,还是较实际的解决方案更加有趣,甚至有望开辟图像合成模型的未来新用途。Eh1品论天涯网

感兴趣的朋友,可移步至GoogleColab查看Bühlmann的示例代码,或在有关TowardsAI的帖子中找到实验中的更多技术细节。Eh1品论天涯网

www.pltyw.com,pltyw.com

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取。 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考;转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网站编辑联系,我们将及时更正、删除,谢谢。 本站邮箱[email protected]