预训练模型对模型训练的影响gpt4:《预训练周刊》第44期: 相邻注意力、变换器修剪、GPT⑷预测 1篇读懂

 

6月的1天,新的1天,快来看看小编今天的文章吧!

关于周刊本期周刊,我们选择了12篇预训练相关的论文,涉及网络结构、对话系统、模型裁剪、代码生成、预训练技术、视觉文本训练、多语言问答、零样本泛化、文本分类、对比学习、蛋白生成和自动学习的探索此外,在研究动态方面,我们选择了2篇预训练资讯,将介绍关系抽取和语言模型方面的1些最新内容。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参我们的工作,1起来推动预训练学习社群的分享、学习和交流活动可以扫描文末的二维码加入预训练群(本期贡献者:申德周 翟珂 吴新刚)关于周刊订阅告诉大家1个好消息,《预训练周刊》开启“订阅功能”,以后我们会向您自动推送最新版的《预训练周刊》。

订阅方法:方式1:扫描上面二维码,进入《预训练周刊》主页,选择“关注TA”。

​方式二:1,注册智源社区账号2,点击周刊界面左上角的作者栏部分“预训练周刊”(如下图),进入“预训练周刊”主页。

3,点击“关注TA”(如下图)

4,您已经完成《预训练周刊》订阅啦,以后智源社区自动向您推送最新版的《预训练周刊》!论文推荐标题:俄勒冈大学、Picsart、Meta|Neighborhood Attention Transformer (相邻注意力变换器)

作者:Ali Hassani, Steven Walton, Humphrey Shi等简介:本文提出1种图像领域新型变换器结构作者提出了相邻注意力变换器(NAT),1种高效、准确和可扩展的层次结构,对图像分类和下流视觉任务适用的变换器。

它建立在 Neighborhood Attention (NA) 之上,这是1种简单灵活的注意力机制,可以为每个查询定位感受野到其最近的相邻像素NA是本地化自注意力,并将其视为感受野尺寸增加它在 FLOP 和内存使用上也 Swin Transformer的偏移窗口注意力相当,给定相同的感受野大小,同时受到较少的限制。

此外,NA包括局部感应偏置,从而消除了对额外操作的需要,例如随着像素的变化 NAT实验结果具有竞争力:NAT-Tiny 在 ImageNet 上达到 83.2% 的 top 准确率,只有4.3 GFLOPs和28M参数,MS-COCO 上的 51.4% mAP 和 ADE20k 上的 48.4% mIoU。

代码:https://github.com/SHILabs/Neighborhood-Attention-Transformer论文地址:https://arxiv.org/pdf/2204.0714

3v1.pdfHub地址:https://hub.baai.ac.cn/view/16564标题:斯坦福|BUILD A ROBUST QA SYSTEM WITH TRANSFORMER-BASED MIXTURE OF EXPERTS(建立1个基于专家混合变换器的健壮对话系统)

作者:Yu Qing Zhou, Xixuan Julie Liu, Yuanzhe Dong简介:本文提出1种对话建模方法在本文中,作者的目标是构建1个能够适应域外的健壮问答系统单个网络可能会过度拟合训练分布中的表面相关性,混合专家 (MoE) 模型允许作者训练1个可以泛化到域外数据集的多任务学习器。

作者还探索了将 MoE 层带到中央的可能性DistilBERT,并用稀疏激活的开关 FFN 替换密集前馈网络层,类似于Switch Transformer架构,它简化了 MoE 路由算法减少通信和计算成本。

除了模型架构,作者还探索数据增强技术,包括简易数据增强和反向翻译,以在小的域外训练数据之间创造更有意义的差异,从而提升作者模型的性能和稳健性在本文中,作者展示了作者的最佳组合架构和数据增强技术在域外实现了53.477的F1分数评估,这比基线提高了9.52%。

在最终的测试集上,作者报告了1个更高的 59.506的F1和41.651的EM作者成功证明了Robust QA 任务中的混合专家架构的有效性论文地址:https://arxiv.org/pdf/2204.0959

8.pdfHub地址:https://hub.baai.ac.cn/view/16566标题:伯克利、3星|A Fast Post-Training Pruning Framework for Transformers(1个快速的训练后变换器修剪框架)

作者:Woosuk Kwon, Sehoon Kim, Amir Gholami等简介:本文介绍了1种推理加速方法修剪是1种有效的减少大型 Transformer 模型的巨大推理成本的方法然而,先前关于模型修剪的工作需要重新训练模型。

这会增加高成本和模型部署复杂性,实际情况使其难以在许多情况下使用为了解决这个问题,作者提出了1个用于变换器的快速训练后修剪框架,没有需要任何再训练给定资源限制和1个样本数据集,作者的框架会自动修剪使用结构化稀疏方法的变换器模型。

没有重新训练的情况下保持高精度,作者介绍3个新技术:(i)根据Fisher信息轻量级掩码搜索算法; (ii) 掩码重排补充搜索算法; (iii) 掩模调整重建每1层的输出激活作者对 BERT-BASE 和 DistilBERT 应用此方法,作者评估它在GLUE 和 SQuAD 基准测试中的有效性。

作者的框架实现了高达2.0倍的FLOP节省和推理延迟提高1.56 倍,同时保持精度损失<1%重要的是,作者的变换器框架修剪在单个GPU上耗时没有到 3 分钟,这比现有的重新训练的修剪方法快两个数量级以上论文:

https://arxiv.org/pdf/2204.09656.pdfHub地址:https://hub.baai.ac.cn/view/16567标题:康奈尔|CodexDB: Generating Code for Processing SQL Queries using GPT Codex (CodexDB:使用 GPT Codex 为处理生成SQL查询代码)

作者:Immanuel Trummer简介:本文介绍了1种自然语言生成数据库查询代码的方法CodexDB 是1个 SQL 处理引擎,其内部结构可以通过自然语言指令进行定制 CodexDB 基于OpenAI 的 GPT Codex 模型,可将文本转换为代码。

这是1个基于 GPT Codex 的框架,用于分解复杂的 SQL查询成1系列简单的处理步骤,以自然的方式描述语言 用户提供的说明和数据库属性描述富了处理步骤,CodexDB将生成的文本转换为查询处理代码。

CodexDB早期原型能够为WikiSQL基准测试中大多数查询生成正确的代码,并且可以通过各种方式进行定制代码:https://github.com/itrummer/CodexDB论文:https://

arxiv.org/pdf/2204.08941.pdfHub地址:https://hub.baai.ac.cn/view/16569标题:微软 | METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals(METRO:使用模型生成信号对大规模自动编码语言模型进行有效去噪预训练)

作者:Payal Bajaj, Chenyan Xiong, Guolin Ke, 等简介:本文提出了1种利用辅助模型生成的训练信号、预训练大规模自动编码语言模型的有效方法该训练策略起源于ELECTRA,在数亿个参数的规模下,已经证明了对预训练模型的样本效率。

在这项工作中,作者进行了全面的实证研究,并提出了1个方法、即“模型生成去噪训练目标”(METRO),它结合了最近开发的1些最佳建模技术,以加速、稳定和增强预训练语言模型,同时又没有影响模型的有效性由此产生的模型METRO-LM由多达54亿个参数组成,实现了 GLUE、 SuperGLUE、和SQuAD 基准上最新的SOTA水平。

更重要的是,METRO-LM的效率高,因为METRO-LM通常比以前的大型模型表现更好、尺寸更小、预训练成本更低论文:https://arxiv.org/pdf/2204.06644Hub地址:https://

hub.baai.ac.cn/view/16489标题:悉尼大学、中国国际数字经济研究院 | Vision-and-Language Pretrained Models: A Survey(综述:视觉和语言预训练模型)

作者:Siqu Long, Feiqi Cao, Soyeon Caren Han,等简介:本文是视觉和语言预训练模型的综述研究预训练模型在计算机视觉(CV)和自然语言处理(NLP)方面都取得了巨大的成功。

1进展通过将视觉和语言内容输入到1个多层转换器,即视觉语言预训练模型(VLPM),从而学习视觉和语言预训练的联合表征在这篇文章中,作者概述了VLPM在视觉和语言联合表达方面取得的次要进展作为前言,作者简要地描述了VLPM的1般任务定义和通用结构;作者首先讨论了语言和视觉数据的编码方法,然后作为核心内容介绍了支流的VLPM结构 。

作者进1步总结了多个VLPM 基本的预训练和微调策略最后,作者强调了CV和NLP研究人员的3个未来方向,以提供有见地的指导论文:https://arxiv.org/pdf/2204.07356.pdf

Hub地址:https://hub.baai.ac.cn/view/16481标题:阿联酋MBZUAI大学 | MuCoT: Multilingual Contrastive Training for Question-Answering in Low-resource Languages(低资源语言问答的多语言对抗训练)

作者:Gokul Karthik Kumar, Abhishek Singh Gehlot, Sahal Shaji Mullilly, 等简介:本文针对问答系统(QA)在低资源语言场景预训练研究探索。

英语问答系统拥有大量英文文本语料库,适宜进行预训练并通进1步微调基于多语言BERT模型(mBERT)通常用于将知识从高资源语言转移到低资源语言然而,由于缺训练数据,直接为低资源语言训练基于mBERT的QA系统具有挑战性。

在这项工作中,作者通过将目标语言的QA样本翻译成其他语言,并使用增加的数据对基于mBERT的QA模型进行微调,该模型已经用英语进行了预训练在Google ChAII数据集上的实验表明,使用来自同1语系的翻译微调mBERT模型可以提高问答性能,而在跨语系的情况下,性能会下落

作者进1步表明,在微调过程中,在翻译的问题-语境特征对之间引入对比损失,可以防止跨语言类翻译的退化、并导致边际改善 论文:https://arxiv.org/pdf/2204.05814Hub地址:

https://hub.baai.ac.cn/view/16401标题:HuggingFace、Google等联合| What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?(什么语言模型体系结构和预训练目标最适合零样本泛化?)

作者:Thomas Wang, Adam Roberts, Daniel Hesslow,等简介:本文针对预训练语言模型进行零样本泛化方向的研究大型预训练的Transformer语言模型已被证明具有零样本泛化能力,即它们可以执行各种各样的任务,而这些任务并没有经过明确的训练。

然而,在最先进的模型中使用的架构和预训练目标存在显著差异,对这些因素的系统比较也有限在这项工作中,作者对建模选择及其对零样本泛化的影响进行了大规模评估特别是,作者关注文本到文本模型,并使用3种模型架构(仅因果、非因果解码器和编码器-解码器)进行实验,使用两种没有同的预训练目标(自回归和掩蔽语言建模)进行训练,并在有和无多任务提示微调的情况下进行评估。

作者通过实验(为1700多亿个token训练了超过50亿个参数的模型)获得了多个方向的结论详情请参阅论文 论文:https://arxiv.org/pdf/2204.05832.pdf代码:https://

github.com/bigscience-workshop/architecture-objectiveHub地址:https://hub.baai.ac.cn/view/16398标题:宾夕法尼亚大学 | Multi-label topic classification for COVID9 literature with Bioformer(用Bioformer对COVID9文献进行多标签主题分类)

作者:Li Fang, Kai Wang简介:本文展示了COVID9文献的多标签主题分类任务比赛的冠军成果该方案的使用没有同的BERT模型,即BioBERT、PubMedBERT和Bioformer进行的。

作者将主题分类任务表述为1个句对分类问题,其中标题是第1句,摘要是第二句本文的结果表明,Bioformer在这项任务中的表现优于BioBERT和PubMedBERT,轻量级的模型可以在COVID9文章的主题分类中取得令人满意的表现。

基线结果相比,本文方法的最佳模型将微观、宏观和基于实例的F1得分分别提高了8.8%、15.5%和7.4%Bioformer在这次挑战中取得了最高的微观F1和宏观F1得分在后续的实验中,本文发现Bioformer对COVID9文章的预训练进1步提高了性能。

本文希望本文的研究能促进COVID9文章以外的科学文献的自动主题分类任务论文地址:https://arxiv.org/pdf/2204.06758v1.pdfHub地址:https://hub.baai.ac.cn/view/165

92标题:微软 | Multilingual Molecular Representation Learning via Contrastive Pre-training(通过对比学习预训练的多语言分子表征学习)

作者:Zhihui Guo, Robin Abraham等简介:本文展示了对比学习预训练在分子表征的应用分子表征学习在化学信息学中起着至关重要的作用最近,基于语言模型的方法作为传统的分子编码特征的替代方法得到了普及。

然而,这些方法只利用单1的分子语言进行表征学习,但是1个给定的分子可以用没有同的语言描述,如SMILES、IUPAC和InChI本文提出了1种多语言分子嵌入生成方法,称为MM-Deacon,即通过对比学习的多语言分子领域嵌入分析。

MM-Deacon使用SMILES和IUPAC作为两种没有同的语言对大规模分子进行预训练,将来自SMILES-IUPAC联合训练的相互信息自监督的对比损失相结合本文在MoleculeNet基准的7个分子特性预测任务、零样本跨语言检索和药物相互作用预测任务上评估了本文方法的稳健性。

本文的结果表明,自监督的多语言对比学习框架为化学领域的探索和药物发现提供了巨大的可能性论文地址:https://arxiv.org/pdf/2109.08830v3.pdfHub地址:https://hub.baai.ac.cn/view/165

93标题:洛桑联邦理工 | Generative power of a protein language model trained on multiple sequence alignments(在多序列比对上训练的蛋白质语言模型的生成能力)

作者:Damiano Sgarbossa, Umberto Lupo, Anne-Florence Bitbol简介:本文提出1种基于蛋白预训练模型的生成方法以Meta训练的诸多Transformer模型为代表的蛋白质预训练模型捕捉到了蛋白质家族的特征,并学习了蛋白质结构和功能相关的约束,它们为产生属于蛋白质家族的新序列提供了可能性。

基于多序列比对训练的蛋白质语言模型,如MSA Transformer,是实现这1目标的有力工具本文提出并测试了1种直接使用遮蔽的语言建模任务生成序列的迭代方法本文证明,所产生的序列在同源性、共进化和基于结构的测量方面通常比Potts模型所产生的序列得分要高,甚至比天然序列得分要高。

此外,尽管Potts模型更好地再现了1阶和二阶统计,MSA Transformer比Potts模型更好地再现了天然数据的高阶统计和序列在序列空间的分布简而言之,MSA Transformer是蛋白质序列生成和蛋白质设计的有力候选者。

论文地址:https://arxiv.org/pdf/2204.07110v1.pdfHub地址:https://hub.baai.ac.cn/view/16520标题:哥本哈根大学、IBM | BioAct: Biomedical Knowledge Base Construction using Active Learning(BioAct: 利用自动学习构建生物医学知识库)

作者:Dustin Wright, ProfileKristen L. Beck等简介:本文展示了预训练自动学习在医学上的应用自动构建知识库的次要技术是信息提取,特别是诸如命名实体识别或关系提取的任务。

自动学习的目的是最大限度地减少人工标注的成本,只需要对数据中较小和较有用的部分进行标注基于这1动机,本文设计了1种方法来快速构建高质量的数据集,以实现生物医学知识库的构建该方法被命名为BioAct,它基于SciBERT等预训练模型构成的自动注释方法,使用自动学习来创建生物领域的训练数据集。

除了BioAct方法本身,本文还公开发布了1个由BioAct构建的关于抗菌性的注释数据集此外,本文使用MegaRes和CARD知识库模拟了1个知识库构建任务,以提供关于注释数据集对该任务的有用性的见解和经验教训。

论文地址:https://doi.org/10.1101/2022.04.14.488416Hub地址:https://hub.baai.ac.cn/view/16521研究动态标题:加拿大阿尔伯塔大学、湖首大学 | FREDA: Flexible Relation Extraction Data Annotation(灵活的关系抽取和数据标注)

作者:Michael Strobl, Amine Trabelsi, Osmar Zaiane简介:本文研究基于BERT优化的模型高效高质量生成关系抽取数据集为了有效地训练精确的关系抽取模型,需要足够且正确标记的数据。

很难获得充分标记的数据,对此类数据进行注释是1项棘手的任务如果做得准确,以前的工作表明:要么必须牺牲准确性,要么任务非常耗时作者提出1种方法,以便快速生成用于关系提取任务的高质量数据集神经模型经过训练,可以在创建的数据集长进行关系提取,取得了很好的效果,并且可以很好地推广到其他数据集。

在该研究中,作者能够在合理的时间内为19种关系注释10022个句子,并为每种关系训练1个常用的基线模型论文:https://arxiv.org/pdf/2204.07150.pdfHub地址:https://

hub.baai.ac.cn/view/16493标题:有人预测GPT长这样:比GPT略大、纯文本、更注重最优计算对齐简介:近日,Cambrian AI的分析师Alberto Romero便发表了1篇文章,基于OpenAI首席执行官Sam Altman在数月前的说法,推测GPT即将在今年7月到8月发布,并基于Altman在去年的1场问答,对GPT的特征进行了预测。

模型大小上GPT将比GPT大,但目前最大的模型相比没有是很大最优性上GPT 将实现对参数化和比例法则的新优化见解多模态上GPT将是1个纯文本模型,而没有是多模态模型OpenAI希望在完全跳到像DALL·E这样的多模态模型之前先充分利用好语言模型。

稀疏性上按照GPT和GPT的趋势,GPT将是1个密集模型(所有参数将用于处理任何给定的输入)在未来,稀缺性将变得更加重要对齐上GPT将比GPT更对齐,其将从InstructGPT进行学习,而InstructGPT是根据人类的反馈进行训练的。

没有过,人工智能的对齐还有很长的路要走,应该仔细评估所做出的工作,而没有应该对此进行炒作Hub地址:https://hub.baai.ac.cn/view/16522欢迎加入预训练社群如果你正在从事或关注预训练学习研究、实现应用,欢迎加入“智源社区-预训练-交流群”。

在这里,你可以:学习前沿知识、求解疑难困惑分享经验心得、展示风貌才华参专属活动、结识研究伙伴请扫描下方二维码加入预训练群(备注:“姓名+单位+预训练”才会验证进群哦)

如果您喜欢这篇文章,请没有要忘记分享给您的朋友们!

为您推荐

预训练模型对模型训练的影响gpt4:《预训练周刊》第44期: 相邻注意力、变换器修剪、GPT⑷预测 1篇读懂

预训练模型对模型训练的影响gpt4:《预训练周刊》第44期: 相邻注意力、变换器修剪、GPT⑷预测 1篇读懂

关于周刊本期周刊,我们选择了12篇预训练相关的论文,涉及网络结构、对话系统、模型裁剪、代码生成、预训练技术...

2023-06-16 栏目:科技派

当前非电脑浏览器正常宽度,请使用移动设备访问本站!