机文章

有人预测今明两年GPT4:有人预测GPT⑷长这样:比GPT⑶略大、纯文本、更注重最优计算取对齐 怎么可以错过

 

今天我们聊1聊最近互联网有什么事:

图源 Pinkeyes on Shutterstock作者 | 钱磊、Ailleurs编辑 | 陈彩娴没有前,谷歌发布基于他们最新1代人工智能架构Pathways研发的 5400 亿参数大模型——PaLM,具备标记因果关系、高低文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。

但同时,大家也1如既往地注意到 PaLM 的计算成本:用了6144块TPU如果租显卡训练,最高花费可能达到1700万美元(人民币超过1个亿,“1个小目标”)显然,这很烧钱,没有符合“经济可用”的原则难怪业内人士常常吐槽:苦大模型矣。

如果模型往大走,1个劲地砸钱,何时是个尽头?有学者也向AI科技评论表示:类似PaLM这样的大模型在结果上确实取得了没有错的突破,但训练计算的成本非常高,没必要将许多任务拼在1起对于大模型的未来发展,GPT系列或许能提供1些新的见解。

近日,Cambrian AI的分析师Alberto Romero便发表了1篇文章,基于OpenAI首席执行官Sam Altman在数月前的说法,推测GPT即将在今年7月到8月发布,并基于Altman在去年的1场问答,对GPT的特征进行了预测。

可以肯定的是,Altman称,GPT的参数没有会达到100TAlberto Romero也猜测,或许GPT的规模会比GPT略大,但“大”没有会像GPT1样成为GPT的“卖点”相反,OpenAI更致力于如何让规模较小的模型发挥更大的性能。

1预测1:GPT没有会太大首先,Alberto判断,GPT没有会是最大的语言模型Altman也称它没有会比GPT大很多前几代的神经网络相比,GPT肯定会很大,但大小没有会是它的显著特征GPT可能介于GPT和Gopher (175B80B)之间。

接着,Alberto给出了他预测的理由:去年由英伟达和微软开发的Megatron-Turing NLG有530B参数,1直是最大的密集神经网络——其大小已是GPT的3倍——直到最近出现了谷歌的PaLM,其大小为540B。

但值得注意的是,MT-NLG以后1些较小的模型达到了更高的性能水平也就是说,更大 ≠ 更好小型模型的存在有两个意义其1是,企业已经意识到,要改善性能,扩大模型的规模没有是唯1的方法,也没有是最好的方法2020年,OpenAI的Jared Kaplan和同事得出结论,当增加的计算预算次要分配到增加参数的数量上时,性能的提高是最显著的,并且遵循幂律关系。

谷歌、英伟达、微软、OpenAI、DeepMind和其他开发语言模型的公司从表面上看接受了这1指导原则

论文地址:https://arxiv.org/pdf/2001.08361.pdfMT-NLG虽然规模很大,但在性能方面并没有是最好的事实上,它在任何单1类别基准上都没有是最好的存在像Gopher (280B)或Chinchilla (70B)这种更小的模型——哪怕仅仅是其1小部分——在任务上的表现都比MT-NLG好得多。

第二个意义是,公司开始拒绝“越大越好”的教条虽然增加参数很简单,但是拥有更多参数只是众多可以提高性能的因素之1,而附带损害(如碳足迹、计算成本或进入死路)反而使其成为最糟糕的因素之1如果企业能够从1个较小的模型中获得类似或更好的结果时,在构建1个庞大的模型之前就会3思而后行。

Altman说,他们没有再专注于制造非常大的模型,而是致力于让较小的模型发挥最大的作用OpenAI的研究人员是缩放假设(scaling hypothesis)早期的倡导人,但现在他们可能已经意识到其他还没走过的路可以改进模型。

相比将GPT做大,Alberto更倾向于认为,OpenAI会将把重点转移到其他方面——比如数据、算法、参数化或对齐——这些因素可以更显著地改进模型2预测2:GPT试图寻找“最优”当涉及到优化时,语言模型会遇到1个关键的问题。

训练如此昂贵,以至于企业没有没有在准确性和成本之间做出权衡而这种抉择常常会导致模型明显未优化GPT只被训练了1次,仍有1些错误,这些错误在某些情况下可能会导致重新训练由于成本太高、负担没有起,OpenAI决定没有进行优化,而这使得研究人员无法找到模型的最佳超参数集(例如学习速率、批尺寸、序列长度等)。

训练成本很高导致的另1个后果是模型行为的分析受到限制当Kaplan的团队总结出模型大小是提高性能最相关的变量时,他们没有考虑到训练令牌的数量——也就是输入模型的数据量这样做将需要大量的计算资源科技公司遵循Kaplan的结论,因为这已是他们所知最好的想法。

讽刺的是,正是受到经济限制的影响,谷歌、微软、Facebook和其他公司在越来越大的模型上“浪费”了数百万美元,并且在这个过程中产生了大量的污染现在,以DeepMind和OpenAI为首的公司正在探索其他方法。

他们试图找到最优模型,而没有仅仅是更大的模型最佳参数化上个月,微软和OpenAI证明,如果使用最优超参数训练模型,GPT可以得到进1步的改进他们发现,6.7B版GPT的性能提高了很多,可以最初的13B版GPT媲美。

超参数调优(对于较大的模型来说没有可行)赋予的性能提升相当于参数数量增加了1倍他们发现了1种新的参数化(μP),在这种参数化中,小型模型的最佳超参数也同样适用于同类大型模型μP使他们能够优化任意大小的模型,而且只需花费很小1部分的培训成本。

然后这些超参数可以几乎没有花钱地转移到更大的模型中最优计算模型几周前,DeepMind重新审视了Kaplan的发现,并意识到训练令牌的数量模型大小1样影响性能,而这人们的看法相反他们的结论是,随着更多的计算预算可用,应该将其平均分配给可缩放参数和数据。

他们通过训练Chinchilla来证明自己的假设,Chinchilla是1个70B模型(是曾经的SOTA,比Gopher小4倍),它使用的数据是GPT (1.4T令牌-来自典型的300B)以来所有大型语言模型的4倍。

结果是明确的在许多语言基准测试中,Chinchilla“1致且显著地”优于Gopher、GPT、MT-NLG和所有其他语言模型,而目前的模型有过大的问题,且训练没有足考虑到GPT将略大于GPT,根据DeepMind的发现,GPT需要达到计算优化的训练令牌数量将约为5万亿,比当前的数据集高出1个数量级。

他们需要训练模型以达到最小训练损失的失败次数,将比他们使用GPT(使用Gopher的计算预算作为代替)时多10 - 20倍Altman在问答中说GPT将比GPT使用更多的计算时,可能就是在指这1点。

OpenAI肯定会对GPT进行优化相关的调查——尽管具体到什么程度还无法预测,因为他们的预算是未知的可以肯定的是,OpenAI将专注于优化除模型大小以外的其他变量找到超参数的最佳集合,最优计算模型大小和参数的数量可以在所有基准测试中带来难以置信的改进。

如果将这些方法合并到1个模型中,那这个模型将会达到1个所有预测都难以想象的高度Altman还说,如果没有把模型做大,人们就没有会相信模型能有多好他可能是指扩大模型尺寸的工作目前已经结束3预测3:GPT将是1个纯文本模型。

深度学习的未来是多模态模型人类的大脑有多种感觉,这是因为我们生活在1个多模态的天下每次只以1种模式感知天下,极大地限制了人工智能处理或理解天下的能力然而,良好的多模态模型比良好的仅用语言或仅用视觉的模型要难得多。

将视觉信息和文本信息组合成单1的表示形式是1项艰巨的任务我们对大脑是如何做到这1点的了解非常有限(并没有是说深度学习社区考虑了认知科学对大脑结构和功能的见解),所以我们没有知道如何在神经网络中实施Altman在问答中说GPT没有会是多模态的(像DALL·E或LaMDA那样),而是1个纯文本模型。

因此,Alberto的猜测是,在跳到下1代多模态人工智能之前,他们试图通过对模型和数据集大小等因素进行调整来达到语言模型的极限4预测4:GPT将是1个密集模型稀疏模型利用条件计算,使用模型的没有同部分处理没有同类型的输入。

稀疏模型最近取得了巨大的成功,其可以很容易地扩展到超过1T参数标记,而没有会产生高额的计算成本,能够在模型大小和计算预算之间创建1个看似正交的关系然而,MoE方法的好处在非常大的模型上就没那么多了考虑到OpenAI关注密集语言模型的历史,Alberto认为,GPT大概率也将是1个密集模型。

又因为Altman说GPT没有会比GPT大很多,我们可以得出结论,稀疏性没有是OpenAI的选择——至少目前是这样鉴于人工智能的灵感来源,即人类大脑,重依赖于稀疏处理多模态1样,稀疏性很可能会主导未来几代的神经网络。

5预测5:GPT会比GPT更对齐OpenAI在解决AI对齐问题上投入了大量的精力:如何让语言模型遵循我们的意图并坚持我们的价值观——没有管这到底意味着什么这没有仅是1个数学难题(例如,我们如何让人工智能准确理解我们想要的器材?),而且也是1个哲学难题(比如没有1种通用的方法可以让人工智能人类保持1致,因为人类价值观在没有同群体之间的差异是巨大的,而且常常互相冲突)。

他们使用InstructGPT进行了第1次尝试,这是1种通过人类的反馈来学习遵守指令的新GPT(没有管这些指令是出于好意还是恶意,都没有被纳入模型中)InstructGPT的次要突破在于,没有管其在语言基准上的结果如何,其都被人类评审认为是1个更好的模型(这些评审是1个由OpenAI员工和英语人士构成的同质的群体,所以我们应该对得出的结论保持谨慎的态度)。

这显著表明,我们有必要克服把基准作为评估人工智能能力的唯1指标人类如何感知这些模型可能同样重要,如果没有是更重要的话考虑到Altman和OpenAI要遵守作为1个有益AGI的承诺,我相信GPT将实现并构建他们从InstructGPT中获得的发现。

我认为他们将改进对齐模式的方式,因为目前为这个模型制作标签的仅限于OpenAI员工和英语人士而真正的对齐应该包括各种性别、种族、国籍、宗教等方面群体这是1个巨大的挑战,朝着这个目标迈进的任何1步都将受到大众的欢迎。

6总结模型大小:GPT将比GPT大,但目前最大的模型(MT-NLG 530B和PaLM 540B)相比没有是很大模型规模没有会是1个显著的特征最优性:GPT将比GPT使用更多的计算GPT 将实现对参数化(最优超参数)和比例法则(训练令牌的数量模型大小同样重要)的新优化见解。

多模态:GPT将是1个纯文本模型,而没有是多模态模型OpenAI希望在完全跳到像DALL·E这样的多模态模型之前先充分利用好语言模型稀疏性:按照GPT和GPT的趋势,GPT将是1个密集模型(所有参数将用于处理任何给定的输入)。

在未来,稀缺性将变得更加重要对齐:GPT将比GPT更对齐,其将从InstructGPT进行学习,而InstructGPT是根据人类的反馈进行训练的没有过,人工智能的对齐还有很长的路要走,我们应该仔细评估所做出的工作,而没有应该对此进行炒作。

你怎么看?参考链接:https://towardsdatascience.com/gpt-is-coming-soon-heres-what-we-know-about-it4db058cfd45

https://towardsdatascience.com/how-microsoft-openai-are-squeezing-the-best-out-of-gpt-3-ad0990a66cbehttps://www.

metaculus.com/questions/7401/when-will-gpt-be-announced/

雷峰网

谢谢您的阅读,如果您还有任何问题需要解答,请随时联系我们。

为您推荐

有人预测今明两年GPT4:有人预测GPT⑷长这样:比GPT⑶略大、纯文本、更注重最优计算取对齐 怎么可以错过

有人预测今明两年GPT4:有人预测GPT⑷长这样:比GPT⑶略大、纯文本、更注重最优计算取对齐 怎么可以错过

图源 Pinkeyes on Shutterstock 作者 | 钱磊、Ailleurs 编辑 | 陈彩娴 不久前,谷歌发布基于他们最新一代人工...

2023-09-02 栏目:编程控

当前非电脑浏览器正常宽度,请使用移动设备访问本站!