ChatGPT幕后的真正大佬 - Transformer-品论天涯网

ChatGPT红得发紫，强得让人类心悸，但在它的背后，还隐藏着一位真正的大佬。可以说，与它相比，ChatGPT其实只是它的一个跟班小弟。或者说，只是它掌控家族中的一个比较靓的仔。这位大佬自2017年问世以来，隐约已成为AI领域的基石王者。它的名字叫做——Transformer。Y8o品论天涯网

一、Chat不重要，GPT才重要Y8o品论天涯网

先拆解一下ChatGPT，它由Chat与GPT两部分组成。Y8o品论天涯网

聊天不重要，GPT才重要。Y8o品论天涯网

那什么是GPT，它的全英文是GenerativePre-trainedTransformer。Y8o品论天涯网

翻译过来就是——生成式预训练的变形金刚。Y8o品论天涯网

先问ChatGPT——你是谁？Y8o品论天涯网

我是谁，它是这样解释的：Y8o品论天涯网

GPT是基于Transformer架构的预训练语言模型，可以生成自然语言文本。Transformer是基于自注意力机制的深度学习模型架构，它在自然语言处理领域中得到了广泛的应用，如机器翻译、文本分类和生成模型等。Y8o品论天涯网

GPT是基于Transformer模型的改进版本，主要是针对生成任务进行了优化，通过预训练学习自然语言的语义和语法规律，进而生成高质量的文本。Y8o品论天涯网

因此，GPT可以看作是Transformer模型在生成任务上的一个应用扩展。Y8o品论天涯网

短短的自我介绍中，ChatGPT就四次提到Transformer。Y8o品论天涯网

Y8o品论天涯网

Transformer模型结构图，图/GoogleResearchY8o品论天涯网

Transformer到底是什么，让ChatGPT如此迷恋？Y8o品论天涯网

这只变形金刚，到底是只什么怪兽？Y8o品论天涯网

二、强大的变形金刚TransformerY8o品论天涯网

Transformer的定义清晰明了：Y8o品论天涯网

是用于自然语言处理（NLP）的神经网络架构。Y8o品论天涯网

在Transformer出现之前，人工智能研究领域百家争鸣。Y8o品论天涯网

Transformer出现之后，格局开始变了，开始打压如日中天的循环神经网络（RNN）和卷积神经网络（CNN）。Y8o品论天涯网

Y8o品论天涯网

Transformer架构使用了注意力机制，能够处理长序列的依赖关系。Y8o品论天涯网

这让它具有以下明显优点：Y8o品论天涯网

❶并行计算：由于自注意力机制的引入，Transformer可以实现并行计算，加快训练速度。Y8o品论天涯网

❷长序列处理：相比传统的循环神经网络和卷积神经网络，Transformer可以处理更长的序列，这是由于自注意力机制可以学习到全局的序列信息。Y8o品论天涯网

❸模块化结构：Transformer由编码器和解码器两部分组成，每部分都包含了多层相同的模块，这种模块化结构使得Transformer更易于扩展和调整。Y8o品论天涯网

Transformer在各种任务中的表现，也将不断得到改善和优化，发展日新月益。Y8o品论天涯网

Y8o品论天涯网

自2017年推出之后，Transformer已经形成了自己的家族体系。Y8o品论天涯网

基于GPT架构，ChatGPT就隐藏在GPT-3的后面。Y8o品论天涯网

现在你就明白，它为什么叫变形金刚了。Y8o品论天涯网

它的确是可以演变成各种不同的角色，而且个个都挺厉害。Y8o品论天涯网

三、统一自然语言NLPY8o品论天涯网

人工智能的一大研究方向，首先是自然语言处理NLP领域。Y8o品论天涯网

自从Transformers出现后，全球NLP领域的人工智能的工程师们望风景从。Y8o品论天涯网

Transformers在该领域的进展所向披靡，不可阻挡，原因如下：Y8o品论天涯网

❶模型大小和训练数据规模的增加：大规模的Transformers模型，如GPT-3.5、bert、T5等，有些模型参数量达到千亿级别，具有更强表达能力。Y8o品论天涯网

❷多语言和跨语言应用：由于Transformers模型具有更强泛化能力，因此可以被应用于多语言和跨语言任务，如机器翻译、跨语言文本分类等。Y8o品论天涯网

❸与其他模型的结合和拓展：与其他模型结合使用，如结合卷积神经网络（CNN）或循环神经网络（RNN）进行多模态学习等。Y8o品论天涯网

❹解释性和可解释性：随着越来越多的机器学习算法被应用于实际场景，对于模型的解释性和可解释性要求也越来越高。Y8o品论天涯网

Y8o品论天涯网

LLM成长的时间线，图/amatriain.netY8o品论天涯网

在自然语言处理NLP领域，总体的趋势是：LSTM/CNN→Transformer。Y8o品论天涯网

NLP领域分为两大不同类型的任务：Y8o品论天涯网

❶理解类人工智能Y8o品论天涯网

❷生成式人工智能Y8o品论天涯网

这两个领域的研发，已经收敛到了两个不同的预训练模型框架里：Y8o品论天涯网

❶自然语言理解，技术体系统一到了以Bert为代表的“双向语言模型预训练+应用Fine-tuning”模式；Y8o品论天涯网

❷自然语言生成类任务，其技术体系则统一到了以GPT为代表的“自回归语言模型（即从左到右单向语言模型）+Zero/FewShotPrompt”模式。Y8o品论天涯网

而这两大模型都是基于Transformers，而且两者也出现了技术统一趋向。Y8o品论天涯网

在自然语言处理NLP这个领域，Transformer基本上已经一统天下。Y8o品论天涯网

以至于那些还沉迷于CNN，RNN的工程师被警告：Y8o品论天涯网

放弃战斗吧，向Transformer投降！Y8o品论天涯网

四、藏不住的野心：统一计算机视觉CVY8o品论天涯网

除了NLP，人工智能的另一分支是计算机视觉CV。Y8o品论天涯网

Transformer最开始，只是专注于自然语言的处理。NLP曾经落后于计算机视觉，但是Transformer的出现迅速地改变了现状。Y8o品论天涯网

一出生就风华正茂，用来形容Transformer毫不为过。它催生了一大批举世瞩目的模型，达到了令人类不安的程度。Y8o品论天涯网

随着Transformer统一了NLP，计算机视觉领域显然受到了启发。Y8o品论天涯网

一直沉迷于CNN神经网络中的科学家，开始想知道Transformer是否可以在计算机视觉方面取得类似的效果。Y8o品论天涯网

不试不知道，一试吓一跳。Y8o品论天涯网

Transformer在计算机视觉领域同样治疗效果明显：Y8o品论天涯网

❶图像分类Y8o品论天涯网

ViT（VisionTransformer）是一种将Transformer应用于图像分类的模型。在ImageNet等基准数据集上取得了与卷积神经网络（CNN）相媲美的结果。Y8o品论天涯网

Y8o品论天涯网

图/GoogleResearchY8o品论天涯网

❷目标检测Y8o品论天涯网

DETR（DEtectionTRansformer）是基于Transformer的目标检测模型。DETR在COCO数据集上取得了与FasterR-CNN方法相当的结果。Y8o品论天涯网

❸语义分割Y8o品论天涯网

Transformer可以用于语义分割任务，其中每个像素被视为一个token。在Cityscapes、ADE20K和COCO-Stuff等数据集上取得了领先的结果。Y8o品论天涯网

以上例子都是Transformer的应用，它在计算机视觉领域也是虎视耽耽。Y8o品论天涯网

五、花8分钟时间，拆解Transformer这只变形金刚Y8o品论天涯网

Transformer为何如此强大，我们花8分钟来解剖它。Y8o品论天涯网

以下内容来自JayAlammar：Y8o品论天涯网

Transformers可以被看做一个黑盒，以文本翻译中的法-英翻译任务为例，这个黑箱接受一句法语作为输入，输出一句相应的英语。Y8o品论天涯网

Y8o品论天涯网

那么在这个黑盒子里面都有什么呢？Y8o品论天涯网

里面主要有两部分组成：Encoder和Decoder。Y8o品论天涯网

Y8o品论天涯网

输入一个文本的时候，该文本数据会先经过一个叫Encoders的模块，对该文本进行编码。然后将编码后的数据再传入一个叫Decoders的模块进行解码，解码后就得到了翻译后的文本。Y8o品论天涯网

Encoders为编码器，Decoders为解码器。Y8o品论天涯网

细心的同学可能已经发现了，上图中的Decoders后边加了个s，那就代表有多个编码器了呗，没错，这个编码模块里边，有很多小的编码器，一般情况下，Encoders里边有6个小编码器，同样的，Decoders里边有6个小解码器。Y8o品论天涯网

Y8o品论天涯网

在编码部分，每一个的小编码器的输入，是前一个小编码器的输出。而每一个小解码器的输入，不光是它的前一个解码器的输出，还包括了整个编码部分的输出。Y8o品论天涯网

那每一个小编码器里边又是什么呢？Y8o品论天涯网

放大一个encoder，发现里边的结构是一个自注意力机制+一个前馈神经网络。Y8o品论天涯网

Y8o品论天涯网

先来看下Self-attention是什么样子的。Y8o品论天涯网

通过几个步骤来解释：Y8o品论天涯网

(1)首先，Self-attention的输入就是词向量，即整个模型的最初的输入是词向量的形式。自注意力机制，顾名思义就是自己和自己计算一遍注意力，即对每一个输入的词向量，我们需要构建Self-attention的输入。Y8o品论天涯网

Y8o品论天涯网

(2)接下来就要计算注意力得分了，这个得分是通过计算Q与各个单词的K向量的点积得到的。以X1为例，分别将Q1和K1、K2进行点积运算，假设分别得到得分112和96。Y8o品论天涯网

Y8o品论天涯网

(3)将得分分别除以一个特定数值8（K向量的维度的平方根，通常K向量的维度是64）这能让梯度更加稳定。Y8o品论天涯网

(4)将上述结果进行softmax运算得到，softmax主要将分数标准化，使他们都是正数并且加起来等于1。Y8o品论天涯网

Y8o品论天涯网

(5)将V向量乘上softmax的结果，这个思想主要是为了保持我们想要关注的单词的值不变，而掩盖掉那些不相关的单词。Y8o品论天涯网

(6)将带权重的各个V向量加起来，至此，产生在这个位置上（第一个单词）的Self-attention层的输出，其余位置的Self-attention输出也是同样的计算方式。Y8o品论天涯网

Y8o品论天涯网

将上述的过程总结为一个公式就可以用下图表示：Y8o品论天涯网

Y8o品论天涯网

Self-attention层到这里就结束了吗？Y8o品论天涯网

还没有，论文为了进一步细化自注意力机制层，增加了“多头注意力机制”的概念，这从两个方面提高了自注意力层的性能。Y8o品论天涯网

第一个方面，它扩展了模型关注不同位置的能力，这对翻译一下句子特别有用，因为我们想知道“it”是指代的哪个单词。Y8o品论天涯网

Y8o品论天涯网

第二个方面，它给了自注意力层多个“表示子空间”。对于多头自注意力机制，不止有一组Q/K/V权重矩阵。Y8o品论天涯网

经过多头注意力机制后，就会得到多个权重矩阵Z，我们将多个Z进行拼接就得到了Self-attention层的输出：Y8o品论天涯网

Y8o品论天涯网

上述我们经过了self-attention层，我们得到了self-attention的输出，self-attention的输出即是前馈神经网络层的输入，然后前馈神经网络的输入只需要一个矩阵就可以了，不需要八个矩阵，所以我们需要把这8个矩阵压缩成一个，我们怎么做呢？只需要把这些矩阵拼接起来然后用一个额外的权重矩阵与之相乘即可。Y8o品论天涯网

Y8o品论天涯网

最终的Z就作为前馈神经网络的输入。Y8o品论天涯网

接下来就进入了小编码器里边的前馈神经网模块了。Y8o品论天涯网

然后在Transformer中使用了6个encoder，为了解决梯度消失的问题，在Encoders和Decoder中都是用了残差神经网络的结构，即每一个前馈神经网络的输入，不光包含上述Self-attention的输出Z，还包含最原始的输入。Y8o品论天涯网

上述说到的encoder是对输入（机器学习）进行编码，使用的是自注意力机制+前馈神经网络的结构，同样的，在ecoder中使用的也是同样的结构。Y8o品论天涯网

Y8o品论天涯网

以上，就讲完了Transformer编码和解码两大模块，那么我们回归最初的问题，将“Jesuisetudiant”翻译成“Iamastudent”，解码器输出本来是一个浮点型的向量，怎么转化成“Iamastudent”这两个词呢？Y8o品论天涯网

这个工作是最后的线性层接上一个Softmax，其中线性层是一个简单的全连接神经网络，它将解码器产生的向量投影到一个更高维度的向量（logits）上。Y8o品论天涯网

假设我们模型的词汇表是10000个词，那么logits就有10000个维度，每个维度对应一个惟一的词的得分。之后的Softmax层将这些分数转换为概率。选择概率最大的维度，并对应地生成与之关联的单词作为此时间步的输出就是最终的输出啦！Y8o品论天涯网

假设词汇表维度是6，那么输出最大概率词汇的过程如下：Y8o品论天涯网

Y8o品论天涯网

以上就是Transformer的框架了，但是还有最后一个问题，我们都知道RNN中的每个输入是时序的，是又先后顺序的，但是Transformer整个框架下来并没有考虑顺序信息，这就需要提到另一个概念了：“位置编码”。Y8o品论天涯网

Transformer中确实没有考虑顺序信息，那怎么办呢，我们可以在输入中做手脚，把输入变得有位置信息不就行了，那怎么把词向量输入变成携带位置信息的输入呢？Y8o品论天涯网

我们可以给每个词向量加上一个有顺序特征的向量，发现sin和cos函数能够很好的表达这种特征，所以通常位置向量用以下公式来表示：Y8o品论天涯网

Y8o品论天涯网

六、Transformer，在AI领域能形成大统一理论吗？Y8o品论天涯网

从以上技术可以看出：Transformer是通用深度学习模型。Y8o品论天涯网

它的适用性非常强，原因在于它的自注意力机制（self-attentionmechanism），可以更好地处理序列数据。Y8o品论天涯网

Y8o品论天涯网

那这里就要谈一个更前沿的技术：跨模态。Y8o品论天涯网

也就是人工智能领域，能否创造一个可以处理语言、文字、图片、视频的大统一模型。Y8o品论天涯网

如果在物理世界，那就有点像爱因斯坦追求的“大统一理论”。Y8o品论天涯网

在跨模态应用中，Transformer模型通常使用图像和文本特征作为输入信息。Y8o品论天涯网

❶使用自注意力机制来学习两个模态之间的关系。Y8o品论天涯网

❷使用多模态自注意力机制（multi-modalself-attention）来处理多个模态之间的关系。Y8o品论天涯网

Transformer应用于跨模态任务的效果非常好，在跨模态上取得成功的几个例子：Y8o品论天涯网

CLIP：CLIP是一种使用Transformer的联合训练框架，同时使用图像和文本来预训练模型。该模型能够将自然语言描述和图像联系起来，在多个视觉推理任务上取得了非常出色的表现。Y8o品论天涯网

DALL-E：DALL-E是OpenAI发布的一个模型，该模型通过预训练得到了非常强大的生成能力，在生成包括飞行的大象、色彩斑斓的沙漏等具有挑战性的图像时表现出色。Y8o品论天涯网

Y8o品论天涯网

通过DALL-E生成的图像Y8o品论天涯网

AI绘画的老玩家一定知道这两个产品。Y8o品论天涯网

Transformer在各个方向上齐头并进，形成了庞大的Transformer家族。Y8o品论天涯网

那么，Transformer会在AI领域能形成大统一理论吗？Y8o品论天涯网

现在得出这样的结论为时过早，AI领域应用非常复杂，需要结合各种技术和算法才能解决，期待单一的模型解决所有问题，有点难。Y8o品论天涯网

但人类对于AGI的期待，又是实实在在的。Y8o品论天涯网

七、记住那些无名的技术英雄Y8o品论天涯网

Transformer如此强大，仍然没有几个人知道。就算是背后站着Google这样的巨人，同样被大众忽略。Y8o品论天涯网

此时光芒四射的ChatGPT，连太阳的光辉都能够遮盖。可实际上，没有Transformer的开源，就没有ChatGPT。Y8o品论天涯网

从技术谱系上来看，ChatGPT只是Transformer家族中的一员。其它谱系的成员，同样表现优秀且杰出。Y8o品论天涯网

如果一定要说未来谁能引领人工智能世界，我更相信是Transformer而非ChatGPT。Y8o品论天涯网

这里引出来另一个问题，我们不能只看到成功的山姆·阿尔特曼（SamAltman），还要看到ChatGPT后面更多的技术英雄。例如：Y8o品论天涯网

AshishVaswani等人：提出自注意力机制Transformer模型；Y8o品论天涯网

BradlyC.Stadie等人：提出RLHF这种人类反馈机制；Y8o品论天涯网

IlyaSutskever，OriolVinyals等人：提出Seq2Seq模型；Y8o品论天涯网

EleutherAI团队：创建GPT-Neo模型的社区项目，是GPT-3的一个分支。Y8o品论天涯网

HuggingFace团队：开发了PyTorch和TensorFlow库。Y8o品论天涯网

Brown等人：在GPT-3论文中提出了新颖的训练策略。Y8o品论天涯网

Y8o品论天涯网

图/amatriain.netY8o品论天涯网

这样的人还有很多，也许他们只是充满着理想主义的科学家、工程师、数学家和程序员，他们在商业上毫无追求，也不是最后的名利收割者。Y8o品论天涯网

但是，我们需要记住这些人。Y8o品论天涯网

当我看着Transformer那张经典的技术原理图时，莫名会有一种心悸，甚至百感交集，这里面容纳了上千上万智者的心血啊。真的美，又真的让人痛。对知识的追求，千折百回，这是我们人类最值得骄傲的品质吧。Y8o品论天涯网

当你看到Transformer的原理图时，你会感动吗？Y8o品论天涯网