麻省理工学院的CSAIL推出了PFGM++,这是一种结合了扩散和泊松过程的人工智能模型。它通过复制电场行为生成卓越的图像,代表了生成式人工智能的一次飞跃。受物理学启发,新的生成模型PFGM++在图像生成方面优于扩散模型。生成式人工智能目前正处于热门话题的风口浪尖上,它有望创造一个由简单到复杂的世界--简单的分布演变成复杂的图像、声音或文本模式,使人工智能变得惊人地真实。
随着麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员将创新的人工智能模型带入生活,想象的领域不再仅仅是抽象的概念。他们的新技术整合了两个看似毫不相关的物理定律,这两个定律是迄今为止性能最好的生成模型的基础:扩散(通常说明元素的随机运动,如热量渗透房间或气体膨胀到空间)和泊松过程(借鉴管理电荷活动的原理)。
Ezoic这种和谐的融合使其在生成新图像方面表现出色,超越了现有的先进模型。自问世以来,"泊松流生成模型++"(PFGM++)已在从抗体和RNA序列生成到音频制作和图形生成等多个领域找到了潜在应用。
该模型可以生成复杂的模式,如创建逼真的图像或模仿真实世界的过程。PFGM++建立在该团队去年的研究成果PFGM的基础上。PFGM从被称为"泊松"方程的数学方程式中汲取灵感,然后将其应用到模型试图学习的数据中。为此,研究小组使用了一个巧妙的技巧:他们为模型的"空间"增加了一个额外的维度,有点像从二维草图变成三维模型。这个额外的维度提供了更大的操作空间,将数据置于更大的背景中,并帮助人们在生成新样本时从各个方向接近数据。
麻省理工学院核科学实验室理论物理中心理论粒子物理学家、美国国家科学基金会人工智能与基础相互作用研究所(NSFAIIAIFI)所长杰西-塔勒(JesseThaler)说:"PFGM++是物理学家和计算机科学家跨学科合作推动人工智能进步的一个范例。近年来,从逼真的图像到清晰的文本流,基于人工智能的生成模型产生了无数令人瞠目的成果。值得注意的是,一些最强大的生成模型是以物理学中久经考验的概念为基础的,例如对称性和热力学。PFGM++从基础物理学中汲取了一个世纪之久的概念--时空可能存在额外的维度--并将其转化为一个强大而稳健的工具,用于生成合成但真实的数据集。我很高兴看到'物理智能'正在以无数种方式改变人工智能领域"。
PFGM的基本机制并不像听起来那么复杂。研究人员将数据点比作一个维度扩展世界中平面上的微小电荷。这些电荷会产生一个"电场",电荷会沿着电场线向上移动,进入一个额外的维度,从而在一个巨大的假想半球上形成均匀分布。生成过程就像倒带一样:从半球上均匀分布的一组电荷开始,沿着电场线追踪它们回到平面的过程,它们就会对齐,从而与原始数据的分布相匹配。这个有趣的过程让神经模型能够学习电场,并生成与原始数据一致的新数据。
PFGM++模型将PFGM中的电场扩展到一个复杂的高维框架。当不断扩展这些维度时,意想不到的事情发生了--模型开始类似于另一类重要的模型,即扩散模型。这项工作就是要找到正确的平衡。PFGM模型和扩散模型处于光谱的两端:一个强大但处理复杂,另一个简单但不那么坚固。PFGM++型号在坚固性和易用性之间找到了平衡点。这一创新为更高效地生成图像和图案铺平了道路,标志着技术向前迈出了重要一步。除了尺寸可调外,研究人员还提出了一种新的训练方法,可以更有效地学习电场。
为了将这一理论付诸实践,研究小组解析了一对微分方程,详细说明了这些电荷在电场中的运动。他们使用弗雷谢特起始距离(FID)评分对其性能进行了评估,这是一种广为接受的指标,用于评估模型生成的图像与真实图像相比的质量。PFGM++进一步展示了更高的抗错能力和对微分方程中步长的鲁棒性。
展望未来,他们的目标是完善该模型的某些方面,特别是通过分析神经网络的估计误差行为,系统地确定为特定数据、架构和任务量身定制的D的"甜蜜点"值。他们还计划将PFGM++应用于现代大规模文本到图像/文本到视频的生成。
"扩散模型已成为生成式人工智能革命背后的重要推动力,"OpenAI研究科学家宋洋说。"PFGM++对扩散模型进行了强大的泛化,通过提高图像生成对扰动和学习错误的鲁棒性,用户可以生成更高质量的图像。此外,PFGM++还发现了静电与扩散模型之间的惊人联系,为扩散模型研究提供了新的理论见解。"
NVIDIA高级研究科学家KarstenKreis说:"泊松流生成模型不仅依赖于基于静电学的优雅物理启发式表述,而且在实践中提供了最先进的生成模型性能。它们甚至优于目前在文献中占主导地位的流行扩散模型。这使它们成为非常强大的生成建模工具,我设想它们将应用于从数字内容创建到生成药物发现等多个领域。更广泛地说,我相信,探索更多由物理学启发的生成建模框架在未来大有可为,而泊松流生成模型仅仅是一个开始。"
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】