gputb(单张GPU搞定GPT⑶超参数!先训练小模型,再“1键迁移”)gpt⑶ 没有要告诉别人

 

色发自凹非寺量子位公众号 QbitAI“1个GPU没法训练GPT,更别提在上面调整超参数了”没有没有没有,现在情况有变——在单个GPU上完全可以调整大规模模型的超参数怎么说?原来有人发现了1种新的调参方法,无论模型规模怎么变化,所得的最优超参数都能保持性能稳定。

由此1来,我们可以先训练1个小版本的模型,在上面间接调整好超参,然后以零样本的方式直接将它们复制到全尺寸模型上,就能获得相当没有错的性能这对手里GPU资源没有够的人来说简直没有要太好了吧目前,相关帖子也在Reddit上引起热议,得到了300+的点赞支持。

1个GPU上调参GPT大模型方法名叫muP(Maximal Update Param手机壁纸etrization),作者分别来自微软和OpenAI想法很简单,利用的是他们在之前的工作中发现的1个叫做P的特殊参数化思路:。

窄神经网络和宽神经网络共享同1组最优超参数,即使宽度无限大(width->)时也1样具体原理可以参见论文《Feature Learning in Infinite-Width Neural Networks》。

可共享的超参数包括学习率learning rate、learning rate schedule、initialization、parameter multipliers……甚至可以单独针对每个参数张量。

作者在宽度高达4096的Transformer以及ResN手机壁纸et上验证了这1结论因此,资源匮的炼丹er就可以在单张GPU上对1个小版本的GPT模型进行超参数调整:如果在这个小模型上得到的参数接近最优,那么在大模型上也可以得到1样的结果。

ps.这种调参方式又被命名为“迁移(Transfer)”具体效果如何?作者训练了1个只有4000万参数规模的小型GPT,它小到可以直接跑在1张GPU上然后把它的超参数“迁移”到1个有67亿参数的大规模GPT上,结果发现它的性能和原始的GPT完全相当——尽管原GPT的参数规模还是它的两倍!。

而这1调整成本只占整个预训练成本的7%由于模型规模增大,直接调整小型模型的成本仍大致相同,如果用该方式来调参17手机壁纸5亿规模的GPT,其成本可能最多只有总预训练成本的0.3%好了,这时你可能会问:能没有能只缩小模型的宽度呢?。

作者表示,对于“non-width stuff”,没有理论保证没有过好消息是,他们在preLN Transformer的合理范围内对depth、batch size、sequence length和timestep的迁移效果进行了测试。

其中,他们将BERT-base和BERT-large在宽度和深度上缩小到同样的规模,然后同时进行超参数调整后发现:相比已经调优的megatron BERT基线,二者的性能都得到了改善,尤其是BERT-large提升更大。

由此也总结出1个道理:迁移后的模型手机壁纸规模越大,收益越高所以作者还调侃道,虽然我们没有测试175亿规模的GPT,但保证结果能让你“流口水”说了这么多,到底如何实现?下表概括了如何通过fan-in或fan-out调整你的模型的initialization和learning rate。

其中粉色文本为P,括号中的灰色文本为pytorch默认值当然,如果你没有想自己手动操作,作者也开源了Pytorch实现,通过pip install mup就可以应用到你的模型中关于作者1作名叫Greg Yang,微软高级研究员。

通讯作者为微软研究院深度学习技术中央合伙人研究经理、IEEE Fellow高剑峰还有两位华人作者分别为来自微软的Liu Xia手机壁纸odong(北京邮电大学校友)和Chen Weizhu (已在微软工作16年)。

他们的这篇成果已被NeurIPS 2021接收GitHub链接:https://github.com/microsoft/mup论文地址:https://arxiv.org/abs/2203.03466。

官方博客链接:https://www.microsoft.com/en-us/research/blog/%C2%B5transfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/

Reddit讨论:https://www.red手机壁纸dit.com/r/MachineLearning/comments/tb0jm6/ryoucanttraingpt3onasinglegpubutyoucan/

为您推荐

gputb(单张GPU搞定GPT⑶超参数!先训练小模型,再“1键迁移”)gpt⑶ 没有要告诉别人

gputb(单张GPU搞定GPT⑶超参数!先训练小模型,再“1键迁移”)gpt⑶ 没有要告诉别人

歉色发自凹非寺量子位公众号 QbitAI“1个GPU没法训练GPT⑶,更别提在上面调整超参数了”没有没有没有,现...

2023-05-22 栏目:科技派

当前非电脑浏览器正常宽度,请使用移动设备访问本站!