随机文章

gpt ⑶gpt4：GPT⑷参数将达10兆！这个表格预测全新语言模型参数将是GPT⑶的57倍全程干货

2023-06-07 21:29:53 分类:科技派作者:axdmin 阅读:

当我们谈论互联网时，我们总是能发现许多令人兴奋的事情。今天，就让我们坐下来，聊1聊最近在这个令人着迷的领域中发生的1些令人瞩目的事件。

来源：lifearchitect编辑：好困【新智元导读】GPT⑷将会有高达10兆个参数？近日，有网友在分析了GPT⑶和其他语言模型以后大胆预测，GPT⑷将会达到GPT⑶的57倍！而「开源版本」则会达到和GPT⑶同等的规模。

对于机器学习来说，参数可以算得上算法的关键：它们是历史的输入数据，经过模型训练得来的结果，是模型的1部分1般来说，在NLP领域，参数数量和复杂程度之间具有正相关性而OpenAI的GPT⑶则是迄今为止最大的语言模型之1，有1750亿个参数。

那么，GPT⑷会是什么样子的？近日有网友就对GTP⑷及其「开源版」GPT-NeoX进行了大胆的预测。

作者认为，GPT⑷的参数或许可以达到10T，是现在GPT⑶模型的57倍还多，而GPT-NeoX的规模则可以和GPT⑶持平等下，如果是这样，程序员们还能没有能在GPT-NeoX上愉快地调参了？模型发布时间

Tokens参数占1.75T的百分比训练文本GPT⑵(OpenAI)Feb 201910B1.5B0.09%40GBGPT-J(EleutherAI)Jun 2021400B6B0.34%800GBGPT⑶(OpenAI)

May 2020499B175B10.00%570GBPanGu (Chinese)Apr 202140B200B11.43%1.1TBHyperCLOVA (Korean)May 2021560B204B

11.66%1TB?Wudao 2.0 (Chinese)Jun 2021500B?1.75T100.00%2.4TBLaMDA(Google)Jun 20211T?200B?11.43%1TB?GPT⑷(OpenAI)

TBA20T?10T?571.43%5TB?GPT-NeoX(EleutherAI)TBA500B?175B?10.00%825GB?数据集分析目前应用最广的GPT⑶的训练语料库来自于规模巨大的结构文本。

其中所有数据集都被索引，分类，过滤和加权，而且还针对重复的部分也做了大量的删减专门为Openai开发并由Microsoft Azure托管的天下最强超算之1完成了对GPT⑶的训练超算系统有超过285,000个CPU核心，超过10,000个 GPU，并且以400Gbps的速度运行。

GPT⑶Wikipedia DataSet是来自于Wikipedia的英文内容由于其质量，写作风格和广度，它是语言建模的高质量文本的标准来源WebText数据集（以及扩展版本WebText2）是来自从Reddit出站的大于4500万个网页的文本，其中相关的帖子会有两个以上的支持率（upvotess）。

由于具有大于4.3亿的月活用户，因此数据集中的内容可以被认为是最「流行」网站的观点Books1和Books2是两个基于互联网的书籍数据集类似的数据集包括：BookCorpus，是由未发表的作者撰写的免费小说书籍的集合，包含了至少10,000本书。

Library Genesis (Libgen)，1个非常大的科学论文、小说和非小说类书籍的集合Common Crawl是1个包含了超过50亿份网页元数据和提取文本的开源存档开放的数据平台：八年来PB级的数据（数以千计的TB，数以百万计的GB）。

25B个网站数以万亿计的链接75%英语，3%中文，2.5%西班牙语，2.5%德语等排名前10域名的内容：Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn

GPT⑶使用的数据集GPT-Neo和GPT-J今年3月，Eleuther AI在GitHub上推出了GPT-Neo开源项目，可以在Colab长进行微调虽然GPT-Neo取GPT⑶比，参数量仍然很小（1.3B和2.7B），但开源又免费，仍然得到了「同性好友们」的认可。

今年6月Eleuther AI再次推出GPT-J⑹B，它可以说是GPT-Neo的增强版本，顾名思义，模型的参数量增加到了6BGPT-J的训练也是基于The Pile数据库——1个825GB的多样化开源语言建模数据集，由22个较小的、高质量的数据集合组成。

The Pile除了专业论坛和知识库，如HackerNews、Github和Stack Exchange，论文预印本网站ArXiv以外，还包括如Youtube字幕，甚至安然邮件（Enron Emails）语料库。

GPT-Neo和GPT-J使用的数据集在zero-shot任务上，GPT-J性能和67亿参数的GPT⑶相当，也是目前公开可用的Transformer语言模型中，在各种下流zero-shot任务上表现最好的。

这么看来，确实可以期待1下和GPT⑶相同规模的GPT-NeoX的表现了网友评论GPT⑷怎么这么大？「GPT⑶已经接近理论上每个token的最大效率了如果OpenAI模型的工作方式是正确的，更大的模型只是对算力的浪费。

」

有网友解答说：「规模确实可以带来改善。因为本质上是1种关系隐喻模型，『了解更多的关系』意味着能够对更多的事情或以更细微的方式做出反应。当然，这也同时是1个营销的方式。」

参考资料：https://lifearchitect.com.au/ai/models/#contents

文章到这里就结束了，感谢你1直陪我看到最后，如果你喜欢这篇文章的话，请给我1个赞吧，也可以关注我，收藏我的文章，让我们互相交流学习。我会没有断地分享更多优质的内容给大家。

随机文章

gpt ⑶gpt4：GPT⑷参数将达10兆！这个表格预测全新语言模型参数将是GPT⑶的57倍全程干货

您可能也感兴趣:

最近发表

网站分类

TAG标签

随机文章

gpt ⑶gpt4：GPT⑷参数将达10兆！这个表格预测全新语言模型参数将是GPT⑶的57倍 全程干货

您可能也感兴趣:

为您推荐

gpt ⑶gpt4：GPT⑷参数将达10兆！这个表格预测全新语言模型参数将是GPT⑶的57倍 全程干货

最近发表

网站分类

TAG标签

gpt ⑶gpt4：GPT⑷参数将达10兆！这个表格预测全新语言模型参数将是GPT⑶的57倍全程干货

gpt ⑶gpt4：GPT⑷参数将达10兆！这个表格预测全新语言模型参数将是GPT⑶的57倍全程干货