OpenAI发布新一代文生图模型ChatGPT Images 2.0 大幅提升文字生成能力-品论天涯网

在短短两年内，区分人类创作和AI生成图像的方式正在迅速失效。过去，图像生成模型一旦被要求生成带有菜单这种文本密集元素的图片，就很容易在拼写上“翻车”。例如，早期模型在生成墨西哥餐厅菜单时，会把常见菜名“发明”成诸如“enchuita”“churiros”“burrto”“margartas”等错误拼写，一眼就能看出不靠谱。3hV品论天涯网

而现在，用全新的ChatGPTImages2.0让其生成一份墨西哥菜菜单时，模型给出的结果已经足以直接拿去店里使用，普通顾客很难从文字本身看出破绽。唯一可能让人心生疑虑的，反而是类似“13.50美元的酸橘汁腌鱼（ceviche）”这种价格水平，会让人对鱼的品质稍作犹豫。为了对比，作者还引用了两年前使用DALL·E3（当时ChatGPT还不具备内置图像生成功能）生成的菜单示例，旧模型在文字呈现上的不稳定与新模型形成鲜明反差。3hV品论天涯网

AI图像生成器长期以来在拼写方面表现不佳，核心原因和主流技术路线有关。过去的图像模型多采用扩散模型（diffusionmodel），通过在噪声中逐步“重建”图像来完成生成任务。LesanAI创始人兼CEOAsmelashTekaHadgu曾在2024年接受TechCrunch采访时表示，扩散模型本质上是在还原一幅整体图像，而图像上的文字通常只占极小一块像素区域，因此模型更倾向于优先学习覆盖面积更大的视觉模式，而不是精细的文字形状。在此背景下，研究人员开始探索自回归模型（autoregressivemodel）等新机制，让图像生成更像大语言模型那样，通过逐步预测、理解结构来构建画面。3hV品论天涯网

对于ChatGPTImages2.0使用了何种底层架构，OpenAI在本周的媒体简报会上拒绝正面回应相关问题。不过，OpenAI在介绍中强调，新模型具备所谓的“思考能力”（thinkingcapabilities），能够联网检索信息、从一次提示生成多张图片，并对自身输出进行复查。这意味着，Images2.0不只是单次“出图”，而是可以围绕同一创意生成多种物料，例如不同尺寸的营销素材、适配多平台的广告图，甚至是一组多格漫画分镜。3hV品论天涯网

OpenAI还表示，新模型在非拉丁文字渲染方面有明显进步，包括日文、韩文、印地语和孟加拉语等语言的文字呈现能力都得到加强。模型的知识截止时间为2025年12月，这也意味着在涉及近期新闻或最新事件的提示时，其生成内容可能存在时效性局限。在官方新闻稿中，OpenAI将Images2.0描述为在“细节和逼真度”层面上实现了前所未有的提升，强调其可以构思和落地更加复杂的图像，精准遵循指令并保留用户提出的细节要求。特别是在以往图像模型最容易“崩坏”的环节——小号文字、图标、界面UI元素、密集构图以及细腻风格约束等方面，Images2.0都能在最高2K分辨率下稳定输出。3hV品论天涯网

这种能力提升也带来了速度上的权衡。相比直接在ChatGPT中输入问题获取文本回答，生成一幅复杂的、多分镜漫画或多尺寸物料需要更长一些时间。但就当前产品表现来看，完成这类复杂图像任务通常仍只需数分钟，已经能够覆盖大部分实际应用场景。3hV品论天涯网

在访问权限方面，OpenAI表示，所有ChatGPT和Codex用户都会从周二起逐步获得对Images2.0的使用权。不同层级的付费用户则可以在生成质量和输出复杂度上解锁更“高级”的结果，例如更高分辨率、更复杂构图或更多版本的图像输出。与此同时，OpenAI还将通过gpt-image-2向开发者开放相关API，按生成图像的质量和分辨率分级计价，使第三方应用可以在自身产品中集成这一图像生成能力。3hV品论天涯网

ChatGPTImages2.0体现出图像生成模型在文字理解与排版能力上的一大跃进，让曾经被认为是“弱项”的文字区域，成为可以放心交给AI处理的设计环节。随着OpenAI启动全面开放和商业化接口，这一代文生图模型有望迅速进入营销设计、产品UI、游戏与漫画创作等多个行业的生产流程，进一步模糊人类与AI视觉内容之间的界线。3hV品论天涯网