机文章

gpt对拷进没有去系统GPT:GPT 详解 深度揭秘

 

哈喽大家好!今天我非常荣幸能够给大家带来这篇文章,希望通过我的文字能够给大家带来新的知识和启示。在我们的日常生活中,总会遇到各种各样的问题和挑战,而这篇文章就是希望能帮助大家解决这些问题,让我们的生活更加美好。在接下来的内容中,我会详细地介绍文章的主题和要点,希望大家能够喜欢并从中受益。

GPTUnsupervised pretrainingsupervised finetuningAblation StudiesGPTGPTGPT又称为openAI transformer,使用的是transformer的decoder的结构(没有包含encoder和decoder的attention部分),用的是auto-regressive的LM objective。

GPT最大的共享是,提出了pretraining和finetuning的下流1框架,将预训练和finetune的结构进行了统1,解决了之前二者分离的使用的没有确定性,例如elmo使用transformer结构解决了LSTM的没有能捕获远距离信息的缺点。

但是其的次要缺点是没有能使用双向的信息Unsupervised pretraining模型使用的是auto-regressive LM obejctive(1)h0=UWe+Wphl=transforme

r(hl−1)∀i∈[1,n]P(u)=softmax(hnWeT)L1(U)=−∑ilogP(ui|ui−k,...,ui−1;Θ)\begin{equation} \begin{split} h_0 &= UW_e + W_p \\ h_l &= transformer(h_{l}) \ \ \forall i\in [1,n]\\ P(u) &= softmax(h_n W_e^T) \\ L_1(U) &= -\sum_i log P (u_i | u{i-k},...,u_{i};\Theta) \end{split} \tag{$1$} \end{equation}

k 是contex的窗口size n 是transformer layer的个数 hnh_n 是context下的hidden 输出 WeW_e 是embedding matrix WpW_p 是position matrix

U=u1,u2,u3,u4,...,umU = {u_1, u_2, u_3, u_4, ..., u_m} 是输入的sequencesupervised finetuning对于输入的序列 x1,x2

,...,xmx_1, x_2, ..., x_m , 以及label yy , 输入先喂到预训练的模型中得到最后1层的输出 hnmh_n ^m ,在连接全连接层with parameters WyW_y

, 去预测y: The inputs are passed through our pre-trained model to obtain the final transformer block’s activation

hlmh_l^m , which is then fed into an added linear output layer with parameters W_yto predict y:(2)P(y

|x1,...,xm)=softmax(hlmWy)L2(C)=∑(x,y)logP(y|x1,...,xm)\begin{equation} \begin{split} P(y|x_1,...,x_m) &= softmax(h_l^m W_y) \\ L_2(C) &= \sum_{(x,y)} log P(y|x_1,...,x_m) \end{split} \tag{$2$} \end{equation}

hlmh_l^m 是最后1个token作为clf_token, see codeencoder[_start_]=len(encoder)encoder[_delimiter_]=len(encoder

)encoder[_classify_]=len(encoder)clf_token=encoder[_classify_]<----最后1个token在finetuning的时候,在特定任务的loss的基础上,还加入了LM的loss作为auxiliary loss,使得模型得到更好的结果

clf_logits,clf_losses,lm_losses=model(*xs,train=True,reuse=do_reuse)iflm_coef>0:train_loss=tf.reduce_mean

(clf_losses)+lm_coef*tf.reduce_mean(lm_losses)else:train_loss=tf.reduce_mean(clf_losses)对于没有同任务有没有同的任务构造方式:

所有输入都增加( )tokens classification entailment similarity:因为是Text1和Text2的顺序无关,所以两个方向的,文本之间通过$分割,最后的dense层通过的是两个transform 儿输出的和作为输入。

multiple choice:bert 没有这种(ref to,但是构造和这个1样Context=document+query; Text2=answer 具体的输入形式:[z;q$a_k],其中$为分隔符, 3个输出再经过soft Max。

[RACE]data setAblation Studies

transformer 比LSTM 好 aux LM loss对NLI以及QQP效果有帮助,(2sentences)GPT在GPT刚发布没有以后,马上被BERT 霸榜了,openAI 于是紧接着发布了

GPT,意在无监督数据的情况下,实现zero-shot任务表现最好模型结构等都没有什么区别,次要的改进就是数据量足够大,模型足够大能够达到很好的NLG效果see tutorial:http://jalammar.github.io/illu

strated-gpt2/

如果您喜欢这篇文章,请没有要忘记分享给您的朋友们!

为您推荐

gpt对拷进没有去系统GPT:GPT 详解 深度揭秘

gpt对拷进没有去系统GPT:GPT 详解 深度揭秘

GPT-1Unsupervised pretrainingsupervised finetuningAblation Studies GPT-2GPT-1 GPT-1又称为openAI tran...

2023-08-26 栏目:互联网+

当前非电脑浏览器正常宽度,请使用移动设备访问本站!