随机文章

gpt对拷进没有去系统GPT：GPT 详解深度揭秘

2023-08-26 08:00:59 分类:互联网+ 作者:axdmin 阅读:

哈喽大家好！今天我非常荣幸能够给大家带来这篇文章，希望通过我的文字能够给大家带来新的知识和启示。在我们的日常生活中，总会遇到各种各样的问题和挑战，而这篇文章就是希望能帮助大家解决这些问题，让我们的生活更加美好。在接下来的内容中，我会详细地介绍文章的主题和要点，希望大家能够喜欢并从中受益。

GPT⑴Unsupervised pretrainingsupervised finetuningAblation StudiesGPT⑵GPT⑴GPT⑴又称为openAI transformer，使用的是transformer的decoder的结构（没有包含encoder和decoder的attention部分），用的是auto-regressive的LM objective。

GPT最大的共享是，提出了pretraining和finetuning的下流统1框架，将预训练和finetune的结构进行了统1，解决了之前二者分离的使用的没有确定性，例如elmo使用transformer结构解决了LSTM的没有能捕获远距离信息的缺点。

但是其的次要缺点是没有能使用双向的信息Unsupervised pretraining模型使用的是auto-regressive LM obejctive(1)h0=UWe+Wphl=transforme

r(hl−1)∀i∈[1,n]P(u)=softmax(hnWeT)L1(U)=−∑ilogP(ui|ui−k,...,ui−1;Θ)\begin{equation} \begin{split} h_0 &= UW_e + W_p \\ h_l &= transformer(h_{l⑴}) \ \ \forall i\in [1,n]\\ P(u) &= softmax(h_n W_e^T) \\ L_1(U) &= -\sum_i log P (u_i | u{i-k},...,u_{i⑴};\Theta) \end{split} \tag{$1$} \end{equation}

k 是contex的窗口size n 是transformer layer的个数 hnh_n 是context下的hidden 输出 WeW_e 是embedding matrix WpW_p 是position matrix

U=u1,u2,u3,u4,...,umU = {u_1, u_2, u_3, u_4, ..., u_m} 是输入的sequencesupervised finetuning对于输入的序列 x1,x2

,...,xmx_1, x_2, ..., x_m , 以及label yy , 输入先喂到预训练的模型中得到最后1层的输出 hnmh_n ^m ，在连接全连接层with parameters WyW_y

，去预测y： The inputs are passed through our pre-trained model to obtain the ﬁnal transformer block’s activation

hlmh_l^m , which is then fed into an added linear output layer with parameters W_yto predict y:(2)P(y

|x1,...,xm)=softmax(hlmWy)L2(C)=∑(x,y)logP(y|x1,...,xm)\begin{equation} \begin{split} P(y|x_1,...,x_m) &= softmax(h_l^m W_y) \\ L_2(C) &= \sum_{(x,y)} log P(y|x_1,...,x_m) \end{split} \tag{$2$} \end{equation}

hlmh_l^m 是最后1个token作为clf_token, see codeencoder[_start_]=len(encoder)encoder[_delimiter_]=len(encoder

)encoder[_classify_]=len(encoder)clf_token=encoder[_classify_]<----最后1个token在finetuning的时候，在特定任务的loss的基础上，还加入了LM的loss作为auxiliary loss，使得模型得到更好的结果

clf_logits,clf_losses,lm_losses=model(*xs,train=True,reuse=do_reuse)iflm_coef>0:train_loss=tf.reduce_mean

(clf_losses)+lm_coef*tf.reduce_mean(lm_losses)else:train_loss=tf.reduce_mean(clf_losses)对于没有同任务有没有同的任务构造方式：

所有输入都增加( )tokens classification entailment similarity：因为是Text1和Text2的顺序无关，所以两个方向的，文本之间通过$分割，最后的dense层通过的是两个transform 儿输出的和作为输入。

multiple choice：bert 没有这种（ref to，但是构造和这个1样Context=document+query； Text2=answer 具体的输入形式：[z;q$a_k],其中$为分隔符， 3个输出再经过soft Max。

[RACE]data setAblation Studies

transformer 比LSTM 好 aux LM loss对NLI以及QQP效果有帮助，（2sentences）GPT⑵在GPT⑴刚发布没有暂以后，马上被BERT 霸榜了，openAI 于是紧接着发布了

GPT⑵，意在无监督数据的情况下，实现zero-shot任务表现最好模型结构等都没有什么区别，次要的改进就是数据量足够大，模型足够大能够达到很好的NLG效果see tutorial：http://jalammar.github.io/illu

strated-gpt2/

如果您喜欢这篇文章，请没有要忘记分享给您的朋友们！

随机文章

gpt对拷进没有去系统GPT：GPT 详解深度揭秘

您可能也感兴趣:

最近发表

网站分类

TAG标签

随机文章

gpt对拷进没有去系统GPT：GPT 详解 深度揭秘

您可能也感兴趣:

为您推荐

gpt对拷进没有去系统GPT：GPT 详解 深度揭秘

最近发表

网站分类

TAG标签

gpt对拷进没有去系统GPT：GPT 详解深度揭秘

gpt对拷进没有去系统GPT：GPT 详解深度揭秘