OpenAI发布新文生图模型免费、逼真到难以分辨-品论天涯网

今天凌晨2点，OpenAI进行了技术直播，对GPT-4o和Sora进行了重大更新，提供了全新文生图模型。除了文生图之外，该模型还支持自定义操作、连续发问、风格转换、图像PPT等超实用功能，例如，更改图片的宽高比、图像物体中的角度，用十六进制代码指定精确颜色等。9B2品论天涯网

尤其是生成图像的逼真度，肉眼几乎看不出任何破绽，在精细度、细节和文本遵循方面非常出色，可以媲美甚至在某些功能超过该领域的头部平台Midjourney。9B2品论天涯网

9B2品论天涯网

新图像模型功能展示9B2品论天涯网

话不多说，“AIGC开放社区”就用免费版为大家展示一下实际的生成案例。9B2品论天涯网

我们先测试一下模型的文本还原和细节表现，来个复杂点的提示词9B2品论天涯网

提示词：一个由甜品组成的奇幻世界，地面是柔软的奶油草坪，树木是用巧克力棒和糖果制作的，树叶是五彩缤纷的果冻。天空中漂浮着巨大的棉花糖云，远处有一个冰淇淋火山正在喷涌彩色的糖浆。9B2品论天涯网

场景中还有一座用蛋糕堆砌的小屋，屋顶是草莓酱，窗户是糖玻璃，细节包括散落的糖粒、路上的巧克力碎片，以及跳跃的小糖果精灵。9B2品论天涯网

9B2品论天涯网

构图、文本还原能力非常棒！一次就完成，生成时间大约在15秒左右。9B2品论天涯网

9B2品论天涯网

再试一下它的新功能，其实OpenAI官方说这是一个“世界知识”功能，但是使用之后感觉更像是一个图像PPT功能，对于教育、金融、医疗等领域帮助非常大。9B2品论天涯网

例如，帮我用图像介绍牛顿第一定律。就能直接生成详细介绍牛顿定律的图像，感觉和PPT差不多吧。9B2品论天涯网

9B2品论天涯网

提示词：用一张图片介绍人体各个结构。9B2品论天涯网

这个人体介绍图片就丰满很多，放在医疗介绍或PPT里应该不错吧。以后做各种宣传资料不愁找不到量身定制的图片了。9B2品论天涯网

9B2品论天涯网

如果不满意，可以基于该图片继续发问，例如，我们想看上面人体介绍的骨骼。提示词：可以详细展示骨骼介绍吗？9B2品论天涯网

9B2品论天涯网

我们放大手部骨骼，继续提问：来一张手部骨骼的特写。9B2品论天涯网

9B2品论天涯网

需要注意的是，图像的文字介绍可能比较模糊或混乱，这是因为中文提示的原因，如果使用英文会好很多。9B2品论天涯网

那我们就用英文提示词来试一下，Inastudyfilledwitharetroatmosphere，onthecorkboardbesidethewoodendesk，magneticword-spellingcardsfixedwithcolorfulpushpinsformauniquepoem:9B2品论天涯网

Line1:"Amelody"9B2品论天涯网

Line2:"Canwakeup"9B2品论天涯网

Line3:"Theslumberingmemories，"9B2品论天涯网

Line4:"However，occasionally"(Thereisalargegaphere)9B2品论天涯网

Line5:"Onasilentnight"9B2品论天涯网

Line6:"Willdeepen"9B2品论天涯网

Line7:"Thatlonging."9B2品论天涯网

文字的嵌入和排列顺序还是相当不错的。9B2品论天涯网

9B2品论天涯网

这个提示词的大意是，在一间充满复古氛围的书房里，木质书桌旁的软木板上，挂着用彩色图钉固定的磁性拼词卡片，组成一首独特的诗：第一行：“一段旋律”第二行：“能唤醒”第三行：“沉睡的记忆，”第四行：“然而偶尔”（此处有较大间隔）第五行：“在寂静的夜晚”第六行：“会加深”第七行：“那份思念。”9B2品论天涯网

9B2品论天涯网

上面只是一些非常简单、基础的玩法，有兴趣小伙伴可以体验一下非常棒。9B2品论天涯网

对于新的文生图模型，OpenAI联合创始人兼首席执行官SamAltman也给出了非常高的评价。9B2品论天涯网

这是一项令人难以置信的产品。我还记得看到这个模型最初生成的一些图像时，很难相信它们真的是由人工智能创作的。我们认为大家会喜欢它，并且很期待看到由此激发的创造力。9B2品论天涯网

这代表着我们在给予创作自由方面达到了一个新的高度。人们将会创作出一些非常了不起的作品，也会有一些可能冒犯他人的内容；我们的目标是，除非用户有此需求，否则该工具不会生成冒犯性内容，即便有此需求，生成的内容也需在合理范围内。9B2品论天涯网

正如我们在模型规格说明中提到的，我们认为将这种知识创作自由和控制权交到用户手中是正确的做法，但我们也会观察其发展情况并倾听社会的声音。9B2品论天涯网

我们认为，尊重社会最终为人工智能设定的广泛界限是正确的做法，而且随着我们离通用人工智能越来越近，这一点也变得越来越重要。在此过程中，感谢大家的理解。9B2品论天涯网

9B2品论天涯网

新图像模型简单介绍9B2品论天涯网

根据直播介绍，非自回归生成是OpenAI新图像模型的核心之一，是提升图片质量、生成效率的关键技术。9B2品论天涯网

传统的图像生成方法，尤其是基于自回归模型的技术，通常是通过逐步生成图像的每个像素或部分来构建最终的图像。这种方法虽然在某些情况下能够生成高质量的图像，但其生成过程往往较为缓慢，并且容易在生成过程中出现累积错误，导致最终图像的质量下降。9B2品论天涯网

此外，自回归生成方法在处理复杂的图像结构时也存在一定局限性，因为它们需要在每一步生成过程中都依赖于之前生成的内容，这使得模型难以全局性地理解和优化图像的整体结构。9B2品论天涯网

相比之下，非自回归生成模块采用了一种全新的思路。不再依赖于逐像素的生成过程，而是直接生成整个图像。这一过程的关键在于模型能够一次性地理解和处理图像的整体结构和细节。非自回归生成模块通过一种特殊的编码器-解码器架构来实现这一目标。9B2品论天涯网

编码器负责将输入的文本描述或其他模态信息转化为一种中间表示，包含了生成图像所需的所有关键信息。然后，解码器利用这种中间表示直接生成完整的图像，而无需逐像素地构建图像。9B2品论天涯网

这种直接生成完整图像的方式带来了很多优势。首先，非自回归生成模块的生成速度远远超过了传统的自回归方法。由于无需逐像素生成，模型能够在短时间内生成高质量的图像，这对于实时应用和大规模图像生成任务具有重要意义。例如，在需要快速生成大量图像的设计场景或教育场景中，非自回归生成模块能够显著提高工作效率。9B2品论天涯网

此外，非自回归生成模块在生成图像的质量上也表现出色。由于模型能够一次性地理解和处理图像的整体结构，生成的图像在细节和一致性方面都得到了显著提升。9B2品论天涯网

例如，在生成复杂场景的图像时，非自回归生成模块能够更好地处理图像中的多个对象及其相互关系，生成的图像更加自然和逼真。此外，非自回归生成模块还能够更好地处理文本指令中的复杂语义信息，生成与文本描述高度一致的图像。9B2品论天涯网

非自回归生成模块的另一个重要特点是其在多模态融合中的应用。在ChatGPT4.0模型中，非自回归生成模块不仅能够根据文本描述生成图像，还能够结合其他模态的信息，如音频或已有的图像，生成更加丰富和多样化的图像内容。9B2品论天涯网

这种多模态融合的能力使得模型能够更好地理解和满足用户的需求。例如，用户可以提供一段音频描述和一张参考图像，非自回归生成模块能够结合这些信息生成一张符合音频描述且风格与参考图像一致的新图像。9B2品论天涯网

从今天开始，新的文生图模型在ChatGPT和Sora中开始向所有Plus、Pro、Team和免费用户推出。面向企业版、教育版和API即将到来。9B2品论天涯网

OpenAI发布新文生图模型 免费、逼真到难以分辨

OpenAI发布新文生图模型免费、逼真到难以分辨