petri网络模型在企业经济中的应用(最新最全GPT⑶模型网络结构详细解析)gpt⑶ 1看就会

 

最近,GPT3很火,现在有很多讲GPT的文章,比如讲解它可以做什么, 思考它的带来的影响, 可视化其工作方式看了这些文章并没有足以详细了解GPT模型,仍然需要认真研究相关论文和博客因此,本文次要目标:帮助其他人对GPT体系结构有1个尽可能详细的了解。

原始模型首先,原始的Transformer和GPT模型的网络结构如下图所示:

上图详细描述了GPT网络结构基础,要深入学习其网络结构,仍需进1步深入研究。输入输出在了解其他内容之前,我们需要知道:GPT的输入和输出是什么?

输入是N个单词(也称为Token)的序列输出是对最有可能在输入序列末尾放置的单词的预测所有基于GPT模型的应用,如手机壁纸对话,故事和示例生成,都是通过这种简单的输入输出方案实现的:给它1个输入序列–得到下1个单词。

比如:并非所有英雄都穿 -> 斗篷当然,我们经常想得到1个以上的多个单词,但这没有是问题:得到下1个单词后,将其添加到序列中,得到下1个单词比如:并非所有英雄都披着斗篷 -> 但 并非所有英雄都披着斗篷 ,但-> 全部 。

并非所有英雄都披着斗篷,但全部 -> 恶棍 并非所有英雄都披着斗篷,但全部恶棍 -> 做重复所需的次数,最终得到需要的长文本实际上,确切地说,以上说法有两点需要纠正1.输入序列实际上固定在2048个字(对于GPT)以内。

仍然可以将短序列作为输入:只需用“空”值填充所有额外位置2. 手机壁纸GPT输出没有仅是1个预测(概率),而是1系列预测(长度2048)(每个可能单词的概率)序列中每个“next”位置都是1个预测但是在生成文本时,通常只查看序列中最后1个单词的预测。

如上图所示顺序输入,顺序输出编码但是请稍等,GPT实际上无法理解单词作为1种机器学习算法,它可以对数字向量进行运算那么我们如何将单词变成向量呢?第1步是将所有单词收集在1起构成词汇表,这使我们能够为每个单词赋予1个值(id)。

Aardvark是0,aaron是1,依此类推(GPT的词汇表包含50257个单词)最终,我们可以将每个单词转换为大小为50257的单点编码矢量,其中仅索引i处的维(单词的值)为1,所有其他维度均手机壁纸为0

当然,我们对序列中的每个单词都执行此操作,

结果是1个2048 x 50257的1和0矩阵注意:为了提高效率,GPT实际上使用字节级(byte-level)字节对编码(BPE)进行Token化这意味着词汇表中的“单词”没有是完整的单词,而是经常在文本中出现的字符组(对于字节级BPE,字节)。

使用GPT字节级BPE Token生成器,将“Not all heroes wears capes”分成Token输入“ Not”,“ all”,“ heroes”,“ wear”,“ cap”,“ es”,其ID为3673、477、10281,词汇中的5806、1451和274。

(https://手机壁纸huggingface.co/transformers/tokenizer_summary.html)详细介绍了bpe原理,以及github实现,也可以自己尝试向量化50257对于矢量来说相当大,并且大部分都用零填充。

那是很多浪费的空间为了解决这个问题,模型学习了1个embedding函数:1个神经网络,该神经网络采用50257长度的1和0的向量,并输出n长度的数字的向量在这里,模型试图将单词含义的信息存储(或投影)到较小的空间中。

例如,如果embedding维数为2,就好比将每个单词存储在2D空间中的特定坐标处。

1种直观的思考方式是,每个维度都是虚构的属性,例如“softness”或“ s手机壁纸hmlorbness”,并且为每个属性赋予1个值,我们就可以准确知道哪个词是什么意思当然,embedding尺寸通常大于2:GPT使用12288尺寸。

在实践中,每个单词one-hot表示都学习的embedding网络权重相乘,最终得到12288维embedding向量用算术术语来说,我们将2048 x 50257序列编码矩阵50257 x 12288 embedding权重矩阵(已学习)相乘,最后得到2048 x 12288序列embedding矩阵。

从现在开始,将绘制二维矩阵,将其作为小小的块,并在其旁边标注尺寸如果适用,将矩阵行分开以明确表示每1行对应于序列中的1个单词还要注意,由于矩手机壁纸阵乘法计算法则限制,所以将embedding函数(又称embedding权重矩阵)分别应用于每个单词编码(即序列编码矩阵中的行)。

换句话说,结果将每个单词编码向量分别传递给embedding函数并在最后将所有结果串连1起是相同的这意味着什么:此过程最终,没有信息流过整个序列,也没有关于Token的绝对或相对位置的信息位置信息编码(Positional Encoding)

为了对当前Token在序列中的位置进行编码,作者采用了Token的位置(标量i,在[0047]中),并将其传递给12288个正弦函数,每个函数的频率都没有同。

其实,为什么如此有效的确切原因尚没有完全清楚作者将其解释为产生许多相手机壁纸对位置编码,这对于模型很有用对于其他可能的模型来分析此选择:考虑通常将信号表示为周期性样本之和的方式(请参见傅立叶变换或SIREN网络体系结构),或者语言自然呈现各种长度的循环的可能性(例如诗歌) 。

对于每个Token,结果是12288个数字向量。embedding1样,将这些向量组合成具有2048行的单个矩阵,其中每1行是序列中Token的12288列位置编码。

最后,可以简单地将具有序列embedding矩阵相同形状的该序列位置编码矩阵添加到该矩阵中。

注意力机制(基础版本)简而言之,Attention的目的是:对于序列中的每个输出,预测输入标记对输出影响程度在这里,想象1个由3个Toke手机壁纸n组成的序列,每个Token都由512个值的embedding表示。

该模型学习3个线性投影,所有这些投影都应用于序列embedding。换句话说,学习了3个权重矩阵,这些矩阵将我们的序列embedding转换为3个单独的3x64矩阵,每个矩阵分别用于没有同的任务。

前两个矩阵(“queries”和“keys”)相乘(QK T),得出3x3矩阵该矩阵(通过softmax归1化)表示每个Token相对于其他Token的重要性注意:此(QK T)是GPT作用于输入序列的唯1操作。

这也是矩阵行交互的唯1操作

3个矩阵(“值”)该重要性矩阵相乘,从而为每个Token生成所有其他Token值的混合(按其各自手机壁纸Token的重要性加权)。

例如,如果重要性矩阵只有1个和零(每个Token只有1个重要的其他Token),则结果就像在值矩阵当选择基于哪个Token最重要的行其实,这至少有助于理解注意力的计算过程,而没有是凭直觉来理解多头注意力机制。

现在,在作者提出的GPT模型中,他们使用了多头注意力所有这些意味着,上述过程被重复了很多次(GPT中为96x),每个过程都有没有同的可学习的query,key,value投影权重每个attention head的结果(单个2048 x 128矩阵)被串连1起,产生2048 x 12288矩阵,然后将其乘以线性投影(没有会改变矩阵形状),以达到良好的效果。

注意:本文手机壁纸提到GPT使用稀疏注意力,这使得计算效率更高老实说,我没有花时间确切地了解它是如何实现的前馈前馈部分是1个具有1个隐藏层的传统的多层感知器进行输入,学习的权重相乘,添加学习的偏差,再次进行,以获得结果。

此处,输入和输出形状都相同(2048 x 12288),但是隐藏层的大小为4 * 12288。

需要明确的是:我也将此操作绘制为1个圆,但是体系结构中其他学习的投影(embedding,query/key/value投影)没有同,此“圆”实际上由两个投影组成(学习加权矩阵乘以输入)连续添加学习偏见,最后经过ReLU激活。

Add和Norm在“多头注意力”和“前馈”模块以后,该模块的输入将添加到手机壁纸其输出中,并对结果进行归1化。这在深度学习模型中很常见(自ResNet起)。

注意:在我的任何草图中都没有反映出以下事实:自GPT起,“layer归1化已移至每个子模块的输入,类似于激活前的残留网络,并且在最终层以后添加了附加的层归1化自我注意模块”解码通过所有96层GPT的注意力/神经网络机制后,输入数据已处理为2048 x 12288矩阵。

对于该序列中的2048个输出位置中的每1个,该矩阵都应包含1个12288个向量的信息,其中应显示哪个单词但是我们如何提取这些信息?如果你还记得“embedding”部分,我们学习了1种映射,该映射将给定(1个字的单次编码)的单词转换为12288个向手机壁纸量的embedding。

事实证明,我们可以反转此映射以将输出的12288向量矢量embedding转换回50257字编码这个想法是,如果我们花所有的精力学习从单词到数字的良好映射,那么我们没有妨重新实用它!

当然,这样做没有会像开始时那样给我们零和1器材,但这是1件好事:在快速softmax以后,我们可以将结果值视为每个单词的概率此外,GPT论文还提到了参数top-k,该参数将输出中要采样的可能单词的数量限制为k个最可能的预测单词。

例如,当top-k参数为1时,我们总是选择最可能的单词整体架构整个网络结构:1些矩阵乘法,1些代数,而且也拥有最先进的自然语言处理能力。我已将所有零件绘制到1个原理图中手机壁纸,单击以查看完整版本。

为您推荐

petri网络模型在企业经济中的应用(最新最全GPT⑶模型网络结构详细解析)gpt⑶ 1看就会

petri网络模型在企业经济中的应用(最新最全GPT⑶模型网络结构详细解析)gpt⑶ 1看就会

最近,GPT3很火,现在有很多讲GPT-3的文章,比如讲解它可以做什么, 思考它的带来的影响, 可视化其工作方式。看了这...

2023-05-22 栏目:科技派

当前非电脑浏览器正常宽度,请使用移动设备访问本站!