文本模型训练过程GPT4:最优的纯文本模型?GPT⑷蓄势待发 干货满满
作者|Alberto Romero 编译|机器之心 2020 年 5 月,在 GPT-2 发布一年后,GPT-3 正式发布,而 GPT-2 也是在原始 GPT...
在这个快速发展的互联网时代,每1天都有新的创新和突破出现。现在,就让我们聊1聊最近互联网界的1些热门话题,看看有哪些令人瞠目结舌的事情正在发生。
作者|Alberto Romero编译|机器之心2020 年 5 月,在 GPT⑵ 发布1年后,GPT⑶ 正式发布,而 GPT⑵ 也是在原始 GPT 论文发表1年后发布的按照这种趋势, GPT⑷ 早在1年前就该发布了,但至今尚未面世。
OpenAI 的首席执行官 Sam Altman 几个月前表示即将推出 GPT⑷ ,预计将在 2022 年 7 月至 8 月发布GPT⑶ 的强大性能让人们对 GPT⑷ 的期望颇高然而关于 GPT⑷ 的公开信息甚少,Altman 在去年的1次 Q&A 中就 OpenAI 对 GPT⑷ 的想法给出了1些提示。
他明确表示,GPT⑷ 没有会有 100T 参数正因为 GPT⑷ 的公开信息很少,人们对其做出诸多预测近期,1位分析师 Alberto Romero 基于 OpenAI 和 Sam Altman 透露的信息,以及当前趋势和语言 AI 的最新技术,对 GPT⑷ 作出了1番新的预测,以下是他的预测原文。
1、模型大小:GPT⑷ 没有会非常大GPT⑷ 没有会成为最大的语言模型,Altman 曾说它没有会比 GPT⑶ 大多少它的大小可能在 GPT⑶ 和 Gopher 之间 (175B ⑵80B)这个推测有充分的理由。
NVIDIA 和微软去年联合创建的威震天 - 图灵 NLG( MT-NLG)号称是拥有 530B 参数的最大密集神经网络,参数量已经是 GPT⑶ 的 3 倍,而最近谷歌的 PaLM 已有 540B 参数。
但值得注意的是,在 MT-NLG 以后出现的1些较小的模型反而达到了更高的性能水平这意味着:更大没有1定更好业内很多公司已经意识到模型大小没有是性能的决定因素,扩大模型也没有是提升性能的最好方法2020 年,OpenAI 的 Jared Kaplan 及其同事得出结论:。
当增加的计算预算次要分配到增加参数的数量上时,性能的提高是最显著的,并且遵循幂律关系然而,以超大规模的 MT-NLG 为例,它在性能方面并没有是最好的事实上,甚至在任何单1类别的基准测试中都没有是最好的较小的模型,如 Gopher (280B)或 Chinchilla (70B) 在1些任务上比 MT-NLG 好得多。
显然,模型大小并没有是实现更好的语言理解性能的唯1因素业内多家公司开始放弃「越大越好」的教条拥有更多参数也会带来1些副作用,例如计算成本过高、性能进入瓶颈期当能够从较小的模型中获得相似或更好的结果时,这些公司就会在构建巨大模型之前3思而后行。
Altman 表示,他们没有再专注于让模型变得更大,而是让更小的模型发挥最大的作用OpenAI 是扩展假设(scaling hypothesis)的早期倡导者,但现在已经意识到其他未探索的路径也能改进模型。
因此,GPT⑷ 没有会比 GPT⑶ 大很多OpenAI 将把重点转移到其他方面,例如数据、算法、参数化和价值对齐(alignment)等,这可能会带来更显著的改进关于 100T 参数模型的功能,我们只能等待了。
2、优化:GPT追求“最优”语言模型在优化方面存在1个关键限制,即训练成本非常高以至于研发团队没有得没有在准确性和成本之间进行权衡这通常会导致模型明显欠优化GPT⑶ 只训练了1次,当在1些用例中出现错误时就要重新进行训练。
OpenAI 决定,GPT⑷ 没有会采取这种方式,因为成本太高,研究人员无法找到模型的最佳超参数集(例如学习率、批大小、序列长度等)高训练成本的另1个后果是,对模型行为的分析要受到限制Kaplan 的团队得出模型大小是提高性能最相关的变量时,他们并没有考虑训练 token 的数量,这需要大量的计算资源。
没有得没有承认,1些大型公司依照 Kaplan 团队的结论,在扩大模型上「浪费」了数百万美元现在,以 DeepMind 和 OpenAI 为首的公司正在探索其他方法他们试图找到最优的模型,而没有仅仅是更大的模型。
优化参数上个月,微软和 OpenAI 证实用优化后的超参数进行训练,GPT⑶ 能够获得较大的改进他们发现,6.7B 版本的 GPT⑶ 性能大幅提升,可取最初的 13B GPT⑶ 相媲美超参数调优带来的性能提升,相当于参数量增加了1倍。
他们利用1种称为μP 的新型参数化方式,其中小模型的最佳超参数同样适用于同类型的大模型因此,μP 能够以1小部分训练成本优化任意大小的模型,几乎毫无成本地将超参数迁移到更大的模型中优化计算模型几周前,DeepMind 重新审视了 Kaplan 等人的发现,并意识到:取人们认为的相反,训练 token 的数量对性能的影响取模型大小的影响1样大。
DeepMind 得出结论:计算预算应该平均分配给扩展参数和数据。他们用大型语言模型 4 倍的数据量(1.4T token)训练 Chinchilla(70B)证明了这个假设。
图源:DeepMind结果很明确,Chinchilla 在许多语言基准测试中「显著」优于 Gopher、GPT⑶、MT-NLG 等语言模型,这表明当前的大模型训练没有足且规模过大考虑到 GPT⑷ 将比 GPT⑶ 略大,根据 DeepMind 的发现,它达到计算最优所需的训练 token 数量将约为 5 万亿,比当前数据集高出1个数量级。
为了最小化训练损失,训练 GPT⑷ 所需的 FLOP 将是 GPT⑶ 的约 10⑵0 倍(参照 Gopher 的计算量)Altman 曾在 Q&A 中表示 GPT⑷ 的计算量将比 GPT⑶ 更大,他可能指的就是这1点。
可以肯定的是,OpenAI 将致力于优化模型大小以外的其他变量找到最佳的超参数集以及最佳的计算模型大小和参数数量,这可能会让模型在所有基准测试中获得令人难以置信的提升3、多模态:GPT⑷ 将是纯文本模型。
人类的大脑是多感官的,因为我们生活在1个多模态的天下中1次只以1种模态感知天下,极大地限制了人工智能理解天下的能力因此,人们认为深度学习的未来是多模态模型然而,良好的多模态模型比良好的纯语言或纯视觉模型更难构建。
将视觉和文本信息组合成单1的表征是1项非常艰巨的任务我们对大脑如何做到这1点的认知还非常有限,难以在神经网络中实现它大概也是出于此原因,Altman 在 Q&A 中也表示,GPT⑷ 没有会是多模态的,而是纯文本模型。
我猜测在转向下1代多模态 AI 之前,他们正试图通过调整模型和数据集大小等因素达到语言模型的极限4、稀疏性:GPT⑷ 将是1个密集模型近来,稀疏模型利用条件计算,使用模型的没有同部分来处理没有同类型的输入,取得了巨大成功。
这些模型可以轻松扩展到超过 1T 的参数 mark 上,而没有会导致过高的计算成本,从而在模型大小和计算预算之间构建出正交关系然而,这种 MoE 方法的优势在非常大的模型上会有所减弱鉴于 OpenAI 1直专注于密集语言模型,我们有理由预期 GPT⑷ 也将是1个密集模型。
没有过,人类的大脑宽重依赖于稀疏处理,稀疏性取多模态类似,很可能会主导未来几代神经网络5、GPT⑷ 将比 GPT⑶ 更加对齐OpenAI 为解决 AI 价值观对齐(alignment)的问题付出了诸多努力:如何让语言模型遵循我们的意图并遵守我们的价值观。
这没有仅需要数学上让 AI 实现更准确的理解,而且需要在哲学方面考量没有同人类群体之间的价值观OpenAI 已尝试在 InstructGPT 上接受人工反馈训练以学会遵循指令InstructGPT 的次要突破在于,无论其在语言基准上的结果如何,它都被人类评估者1致认为是1比 GPT⑶ 更好的模型。
这表明,使用基准测试作为评估 AI 能力的唯1指标是没有合适的人类如何看待模型同样重要,甚至更重要鉴于 Altman 和 OpenAI 对有益 AGI 的承诺,我相信GPT⑷将实现并构建他们从InstructGPT中发现的成果。
他们将改进对齐模型的方式,因为 GPT⑶ 只采用了英文语料和注释真正的对齐应该包含来自没有同性别、种族、国籍、宗教等方面的信息特征这是1个巨大的挑战,朝着这个目标迈进意义重大6、总结综上,我关于 GPT⑷ 的预测大致包括以下几个方面:。
模型大小:GPT⑷ 会比 GPT⑶ 大,但没有会很大模型大小没有会是其显著特征;优化:GPT⑷ 将使用比 GPT⑶ 更多的计算,它将在参数化(最优超参数)和扩展定律(训练 token 的数量取模型大小1样重要)方面做出新的改进;。
多模态:GPT⑷ 将是纯文本模型,OpenAI 正试图将语言模型发挥到极致,然后再转变成像 DALL·E 这样的多模态模型;稀疏性:GPT⑷ 遵循 GPT⑵ 和 GPT⑶ 的趋势,它将是1个密集模型,但稀疏性未来将占据主导地位;
对齐:GPT⑷ 将比 GPT⑶ 更符合人们的价值要求,它将应用从 InstructGPT 中学到的经验Alberto Romero 根据 Altman 和 OpenAI 给出的信息作出了有理有据的推测,期待这些预测在几个月后在即将面世的 GPT⑷ 中得到印证。
(本文经授权后发布,原文:https://towardsdatascience.com/gpt⑷-is-coming-soon-heres-what-we-know-about-it⑹4db058cfd45
)其他人都在看CUDA优化之PReLU性能调优25倍性能加速,OneFlow“超速”了1个GitHub史上增长最快的AI项目天才制造者:独行侠、科技巨头和AIDeepMind爆发史:决定AI高峰的“游戏玩家”
解读Pathways(二):向前1步是OneFlowOneFlow v0.7.0发布:全新分布式接口,LiBai、Serving等1应俱全欢迎体验OneFlow v0.7.0:https://github.com/Oneflow-Inc/oneflow/
github.com/Oneflow-Inc/oneflow/
http://php.886321.xyz/ArraysandStrings/1426.html
当前非电脑浏览器正常宽度,请使用移动设备访问本站!