浅析 GPT-4o 画图背后的技术：OmniGen

type

status

date

slug

summary

category

icon

password

platform

GPT-4o 最近更新了一版本的模型，因为生成的图片效果很好，图片好看，同时也带来了很多新的玩法，在互联网上爆火。

对于 ChatGPT 来说，4o 图像模型确实超出预期，这次的模型可以说是大获成功。

Sam Altman 维持特地发了一条推特说：“GPT-4o 在 1 小时内增加了 100 万用户”

我们可以来看看 GPT-4o 的出图效果，看看归藏老师的一些出图案例：

把英雄联盟的英雄画成时尚海报，出图效果非常棒

GPT-4o 很擅长在画面中生成文字，可以用来做一些有趣的插画图。并且对文字的理解非常棒，即便对中文的效果比较差，也可以抽卡出不少有趣的图像。

可以用来做穿搭分析，可以用来画有趣的插画

GPT-4o 还很擅长不同风格志健的转换

模仿归藏老师的思路，我也把我的头像转换成了皮克斯 CG 3D 的风格：

GPT-4o 这次爆火的几个原因：

生成的图片效果好，输出图片好看，带来了很多新的玩法；

实现了文本、图像、语音的统一处理；

除了看模型生成的效果外，作为一个 AI 产品经理，我还是比较希望能够了解模型背后的技术原理。

所以就找到了，最右可能是 GPT-4o 背后的技术—— OmniGen

聊聊这项技术的突破

这一波 AI 技术，虽然都是 AI 生成技术，但其实最重要的时来源于两个技术架构——Transformer 架构和 diffusion 架构。

比如我们经常说的大语言模型，主要是基于 Transformer 架构。

而使用的最多的图像生成模型，比如 stable diffusion，则是基于 diffusion 架构。

下图是 Transformer 架构的原理图，分为 encoder 和 decoder 两个部分。

Encoder：可以把它想象成一个信息提取器。它读取输入数据（比如一段文字）并把它转换成另一种表达方式，这种方式可以被模型更容易地理解。

Decoder：这个部分类似于翻译器，它把Encoder提取的信息转化为最终输出（比如另一种语言的文本）。

Transformer 架构的特点是多头注意力机制和自回归机制。

下图是成 latent diffusion 的架构图，也就是 stable diffusion 的基础论文。

Latent Diffision 的工作原理是先将图像，通过 VAE 转化成潜在空间里的表示，可以理解为是一个加了很多噪点的“向量”，再使用 U-Net 架构，加上一些额外的控制来控制图像的去噪方向，最终经过多轮 U-Net 的去噪后，再由 VAE 还原成图像。

U-Net是先将图像的向量进行卷积操作，再通过训练，按照要求还原这个图像。

U-Net 架构示意图

VAE 则是将输入图像转换为潜在空间的概率分布参数，输出两组值：μ（均值）和σ（标准差/方差），再通过 decoder 还原成原来的图像

VAE 架构示意图

所以非常有趣的是，我们可以发现，不管是 VAE，U-Net 还是 Transformer，都有一个 Encoder 和 Decoder 的过程。

但这里面不同的架构有自己不同的特点。

那么有没有可能将大语言模型和图像生成模型结合起来呢？

也就是我们常说的多模态模型，支持多种模态的内容的输入和输出。

在前沿的模型研究中，大家一直在做这个方向的尝试。

例如 2022 年提出的 DiT 架构，使用 Transformer 架构来替换 latent diffusion 中的 U-Net。

DiT 架构中使用了 Transformer 以后，Transformer 的多头注意力机制和自回归性，是的图像生成模型对文字和知识的理解更好，也能加固更好的上下文，但同时训练和推理消耗的算力也会更高。

但总体来说生成的图像质量会比原来的更好。

甚至也因为此，DiT 架构开启了视频生成模型的录像，2023 年爆火的 Sora 就是基于 DiT 架构。阿里最新开源的 WAN 模型，也是基于此。

但是 DiT 架构，其本质同样还是图像生成模型，只能用于接受提示词和参考图来生成一张图像。

我们如果观察上面 GPT-4o 的生成图片的特点的话，可以发先他支持多轮文字和图像的输入，来生成一张图像。

这明显区别于 DiT 架构。

而是用了另外一套技术框架。

经过我的研究和猜测，我推断 GPT-4o 应该是使用了 OmniGen 这个框架。

非常有趣的是，OmniGen 这个技术的论文，还是北京人工智能研究院写的论文。

让我们浅浅读一下这篇论文。

在论文的开头就提出了现有的 diffusion 技术框架的局限性，当要完成一些特点的操作时，例如在图像中增加一些文字，一些笔画等等，因为底膜本身不具备这些能力，所以通过一些额外的操作，例如微调训练一个新的模型，或者是使用 ControlNet，Puild 等 Condictioning 来完成工作，无法直接训练模型。

所以也就是说，之前的生图流程，很多时候都需要搭建复杂的工作流来实现，例如 ComfyUI。