随机文章

为什么所有游戏停服1天（为什么所有GPT⑶复现都失败了？使用ChatGPT你应该知道这些）gpt⑶ 难以置信

2023-05-22 17:56:04 分类:科技派作者:axdmin 阅读:

机器之心专栏作者：杨靖锋为何所有公开的对 GPT⑶ 的复现都失败了？我们应该在哪些任务上使用 GPT⑶.5 或 ChatGPT？这1推文写于 2023 年 2 月 12 日，其中均为小我意见，仅供参考。

为何所有公开的对 GPT⑶ 的复现都失败了？我们应该在哪些任务上使用 GPT⑶.5 或 ChatGPT？这篇推文将包括，我在仔细重新检查了1系列文章的细节以后给出的总结，以及对上面两个问题我小我的思考。

这些文章包括且没有限于：GPT⑶, PaLM, BLOOM, OPT, FLAN-T5/PaLM, HELM 等如果您有更可靠的参考资料或者更实际的经验，欢迎指正对于那些想要复现1个属手机壁纸于自己的 GPT⑶ 或 ChatGPT 的人而言，第1个问题是关键的。

第二个问题则对那些想要使用它们的人是重要的（下文提到 GPT⑶，次要是指 GPT⑶.5 或 InstructGPT 的最新版本，除了1些指向 GPT⑶ 原文的情况）为何所有公开的对 GPT⑶ 的复现都失败了？

这里，我称之为 “失败”，是指训练得出模型有接近 GPT⑶ 或者更大的参数量，但仍无法取 GPT⑶ 原始文献中报告的性能所匹配在这1标准下，GPT⑶ 和 PaLM 是 “成功” 的，但这两个模型都没有是公开的。

而所有的公开模型（例如：OPT⑴75B 和 BLOOM⑴76B）都在1定程度上 “失败” 了手机壁纸但是我们仍然可以从这些 “失败” 中吸取1些教训我们需要注意的是，假如能够多次尝试各种没有同的训练设置，开源社区可能最终可以复现 GPT⑶。

但截至目前，训练另1个版本的 OPT⑴75B 的开销仍然太过高昂 —— 对于如此大规模的模型，1次训练就将需要在约 1000 个 80G A100 GPU 上花费至少 2 个月的时间（数据来自于 OPT 的原始文献）。

尽管1些文章（例如 OPT⑴75B 和 GLM⑴30B）声称它们在1些任务上能够匹配甚至超过原始的 GPT⑶ 的表现，在更多 GPT⑶ 已经测试过的任务上，这种声明仍然是存疑的同时，根据大多数使用者在更多样的任务上的经验，以及 HE手机壁纸LM 的评估来看，最近的 OpenAI GPT⑶ 的 API 表现也仍然比这些开源模型更好。

尽管它背后的模型可能使用了指令微调（instruction tuning, 正如 InstructGPT 那样），类似的使用了指令微调的 OPT 版本（OPT-IML）和 BLOOM 版本（BLOOMZ）也仍然远比 InstructGPT 和 FLAN-PaLM（PaLM 的指令微调版本）要差得多。

根据文章的细节，有多个可能的原因导致了相比 GPT⑶ 和 PaLM 的成功，OPT⑴75B 和 BLOOM⑴76B 的失败我将其分为两个部分：预训练数据和训练策略预训练数据让我们首先观察 GPT⑶ 手机壁纸是如何准备和使用预训练数据的。

GPT⑶ 在共计 300B 的 token 长进行训练，其中 60% 来自经过筛选的 Common Crawl，其它则来自：webtext2（用于训练 GPT⑵ 的语料库），Books1，Books2 和维基百科。

更新版本的 GPT⑶ 还用了代码数据集进行训练（例如 Github Code）每个部分的占比并没有取取原始数据集的大小成比例，相反的，具有更高质量的数据集被更加频繁地采样导致 OPT⑴75B 和 BLOOM⑴76B 失败的，可能是以下3个难点，它们使得开源社区难以收集到类似的数据：。

1. 第1点是1个具有良好性能的用于筛选低质量数据的分类器它被用手机壁纸于构建 GPT⑶ 和 PaLM 的预训练数据集，但在 OPT 和 BLOOM 的训练中却没有被采用1些文章已经展示，1个用更少但质量更高的数据集训练的预训练模型，可以在性能上超过另1个用更多的混合质量数据集训练的模型。

当然，数据的多样性仍然是十分重要的，正如我们将在第3点中讨论的因此，人们应当非常小心地处理在数据多样性和质量之间的权衡2. 第二点是预训练数据集的去重去重有助于避免预训练模型多次面对相同的数据后记住它们或者在其上过拟合，因此有助于提高模型的泛化能力。

GPT⑶ 和 PaLM 采用了文档级别的去重，这同样被 OPT 所采用但 OPT 预训练的去重 Pile 语料库中仍有许多重复存手机壁纸在，这也可能导致它较差的性能（注：在1些最近的文献中显示去重对于预训练语言模型的重要性可能没有想象中大）。

3. 第3点是预训练数据集的多样性，包括领域多样性、格式多样性（例如：文本、代码和表格）和语言多样性OPT⑴75B 所使用的 Pile 语料库声称有着更好的多样性，但 BLOOM 采用的 ROOTS 语料库则有太多的已经存在的学术数据集，缺累 Common Crawl 数据所包含的多样性。

这可能导致 BLOOM 性能更差作为对比，GPT3 来自 Common Crawl 语料的占比则要高得多，而它们是多样的和来自广泛领域的，这也可能是 GPT⑶ 能够作为首个通用聊天机器人 ChatGP手机壁纸T 的基础模型的原因之1。

请注意：虽然1般来说，多样性的数据对于训练1个通用的 LLM（Large Language Model，大规模语言模型）是重要的，但特定的预训练数据分布，则会对 LLM 在特定的下流任务上的性能产生巨大的影响。

例如，BLOOM 和 PaLM 在多语言数据上有更高的占比，这导致它们在1些多语言任务和机器翻译任务上的性能更高OPT 使用了很多对话数据（例如 reddit），这可能是它在对话中表现好的原因之1PaLM 有很大的占比在社交媒体对话中，这可能是它在多种问答任务和数据集上有着卓越表现的原因。

同样的，PaLM 和更新版本的 GPT⑶ 有很大比例的代码数据集，这增强手机壁纸了它们在代码任务上的能力，以及可能增强了它们 CoT (Chain-of-Thought，思维链) 的能力1个有趣的现象是 BLOOM 在代码和 CoT 上的表现仍然是较差的，尽管它在预训练过程中使用了代码数据。

这可能暗示着单独代码数据本身，并没有能保证模型的代码和 CoT 能力总之，1些文章表明了上面3点的重要性，即：通过数据去重避免记忆和过拟合，通过数据筛选以得到高质量数据，保证数据多样性以确保 LLM 的泛化性。

但没有幸的是，对于 PaLM 和 GPT⑶ 预处理这些数据的细节，或者这些预训练数据本身，仍然没有公布，这使得公共社区很难去复现它们训练策略此处训练策略包括训练框架、训练持续时间、手机壁纸模型架构 / 训练设置、训练过程中的修改。

在训练非常大的模型时，它们被用于获得更好的稳定性和收敛性1般来说，由于未知的原因，预训练过程中广泛观察到损失尖峰（loss spike）和无法收敛的情况因此，众多的对训练设置和模型架构的修改被提出，用以避免这些问题。

但是其中1些修改在 OPT 和 BLOOM 当中还没有是最优解，这可能导致它们的性能较差GPT⑶ 并没有明确提到他们是如何解决这个问题的1. 训练框架1个参数量大于 175B 的模型往往需要 ZeRO 式的数据并行（分布式的优化器）和模型并行（包括张量并行（tensor parallel）、流水线并行（pipeline parallel），手机壁纸有时还包括序列并行（sequence parallel））。

OPT 采用了 ZeRO 的 FSDP 实现，以及模型并行的 Megatron-LM 实现BLOOM 采用了 ZeRO 的 Deepspeed 实现和模型并行的 Megatron-LM 实现PaLM 采用了 Pathways，这是1个基于 TPU 的模型并行和数据并行系统。

GPT⑶ 的训练系统的细节仍然未知，但它们至少在1定程度上使用了模型并行（1些人称它使用了 Ray）没有同的训练系统和硬件可能导致没有同的训练时的现象显然，1些在 PaLM 的文章中呈现的、用于 TPU 训练的设置，可能并没有适用于其它所有模型使用的 GPU 训练。

硬件手机壁纸和训练框架的1个重要的影响是，人们是否可以使用 bfloat16 去存储模型权重和中央层激活值等这已经被证明是稳定训练的1个重要因素，因为 bfloat16 可以表示更大范围的浮点数，能够处理在损失尖峰时出现的大数值。

在 TPU 上 bfloat16 是默认设置，这可能是 PaLM 能够成功的1个秘密但是在 GPU 上，以前人们次要使用 float16，这是 V100 中混合精度训练的唯1选择OPT 使用了 float16，这可能是其没有稳定的因素之1。

BLOOM 发现了这样的问题并最终在 A100GPU 上使用了 bfloat16，但它没有意识到这种设置的重要性，因此在第1个词向量层后引入额外手机壁纸的层归1化（layer normalization），用于解决他们使用 float16 的初步实验中的没有稳定性。

然而，这种层归1化已被证明会导致更糟糕的零样本泛化（zero-shot generalization），这可能是 BLOOM 失败的1个因素2. 训练过程中的修改OPT 做了很多半途调整并从最近的 checkpoint 重启训练，包括改变截断梯度范数 (clip gradient norm) 和学习率，切换到简单的 SGD 优化器然后回到 Adam，重置动态损失标量 (dynamic loss scalar)，切换到更新版本的 Megatron 等等。

这种半途调整可能是 OPT 失败手机壁纸的原因之1相比之下，PaLM 几乎没有做任何半途调整它只是当损失尖峰出现时，从尖峰开始前大约 100 步的 checkpoint 重新开始训练，并跳过了大约 200⑸00 个 batch 的数据。

仅仅依靠这种简单的重启，PaLM 就取得神奇的成功这是由于它在预训练数据构建期间就已经完成采样，因此模型具有在 Bit 意义上的确定性，以及它对模型架构和训练设置进行了许多修改以获得更好的稳定性PaLM 中的此类修改在下1点中展示。

3. 模型架构 / 训练设置：为了使训练更稳定，PaLM 对模型架构和训练设置进行了多项调整，包括使用 Adafactor 的修改版本作为优化器，缩放在 softmax 手机壁纸之前的输出 logit，使用辅助损失来鼓励 softmax 归1化器接近 0，对词向量和其他层权重使用没有同的初始化，在前馈层和层归1化中没有使用偏差项，并且在预训练期间没有使用 dropout。

请注意，GLM⑴30B 中还有更多有价值的内容关于如何稳定地训练非常大的模型，例如：使用基于 DeepNorm 的后置层归1化而没有是前置层归1化，以及词向量层梯度收缩以上大多数模型修改没有被 OPT 和 BLOOM 采用，这可能会导致它们的没有稳定和失败。

4. 训练过程：如下表所示，原始的 GPT⑶ 预训练过程见过的 token 数取 OPT 和 BLOOM 接近，而 PaLM 则远远超过了它们同样，Pa手机壁纸LM 和 GPT⑶ 预训练语料库都大于 BLOOM 和 OPT。

因此，在更多的 token 上、用更大规模的高质量语料库进行预训练可能是 GPT⑶ 和 PaLM 成功的1个重要因素

除了上面列出的四点，还有1些其它因素，它们可能对于更稳定的训练并没有重要，但仍然可能影响最终的性能第1点，PaLM 和 GPT⑶ 都使用了在训练过程中从小到大逐渐增加的 batch size，这已经被展示对于训练1个更好的 LLM 是有效的，然而 OPT 和 BLOOM 都使用了恒定的 batch size。

第二点，OPT 使用了 ReLU 激活函数，而 PaLM 使用 SwiGLU 激活函数，GPT⑶ 和 B手机壁纸LOOM 使用 GeLU，它通常使得训练的 LLM 的性能更好第3点，为了更好的建模更长的序列，PaLM 使用 RoPE 词向量，BLOOM 使用 ALiBi 词向量，而原始的 GPT⑶ 和 OPT 使用学习得到的词向量，这可能影响在长序列上的性能。

我们应该在哪些任务上使用 GPT⑶.5 或 ChatGPT？我尝试解释我们应该在哪些任务和应用上使用 GPT⑶，而哪些则没有该使用为了展示 GPT⑶ 是否适合某个特定任务，我次要比较了带有提示（prompting）的 GPT⑶ 和经过微调的更小的模型，这些小模型有时还加入了其他特殊的设计。

鉴于最近出现的更小的而且可以微调的 FLAN-T5 手机壁纸模型的良好性能，这1问题更加重要在理想情形下，如果微调 GPT⑶ 的负担是能够承担的，它可能带来更进1步的提升然而，在1些任务上通过微调 PaLM⑸40B 带来的提升是如此有限，让人们怀疑在1些任务中微调 GPT⑶ 是否是值得的。

从科学的角度来看，更公平的比较应在微调 GPT⑶ 和提示 GPT⑶ 之间进行然而，要使用 GPT⑶，人们可能更关心将提示 GPT⑶ 和微调1个更小的模型去进行对比注意到，我次要关心的是将完成任务的精确度作为度量，但仍然存在很多其它重要的维度，例如：有害性（toxicity）、公平性等，它们也应该在决定是否使用 GPT⑶ 时被纳入考虑，正如 HELM 的手机壁纸文章中所呈现的。

下图展示了1个粗略的决策流程，希望它能够作为1个有用的实践指南，无论对于已有任务还是1个全新的任务

注 1：由于在对话场景下的良好对齐，ChatGPT 作为1个聊天机器人表现优异但我们通常使用 GPT⑶、InstructGPT (GPT⑶.5)、以及 Codex 这些 ChatGPT 背后的模型作为在更多任务和使用场景下的通用模型。

注 2：这1节中的结论是基于1些对模型当前版本的发现得到的，这可能没有适用于未来的更强的模型因为，使用更多取目标数据集接近的预训练数据、学术数据集指令调整（例如提示1个 FLAN-PaLM 可能会带来更强的性能，它仍未公开）或者通过 RLHF 以使得手机壁纸模型对目标任务的更好对齐，这些都可能使得模型在目标任务中表现更好，即使有时这会牺牲在其他场景下的能力（例如，InstructGPT 的 “对齐税 / Alignment tax”）。

在这种情况下，很难判断 GPT 是进行泛化和跨任务泛化，还是仅仅在预训练时就已经记住了1些测试样例，或者说见过那些在预训练时所谓 “没有见过” 的任务然而，记忆在实践中是否真的是1个宽重的问题，这仍然值得怀疑。

因为用户取研究人员没有同，如果他们发现 GPT 已经可以在他们的测试数据上表现良好，他们可能没有会关心 GPT 在预训练期间是否看到了相同或相似的数据没有论如何，为了最大化这1节在当前的实用价值，我尽最大努力，试图手机壁纸比较微调公共的更小型的模型（T5、FALN-T5、1些特殊设计的微调 SOTA 模型等）和最近的 GPT⑶ (GPT⑶.5、InstructGPT)、PaLM（或 FLAN-PaLM）的最佳性能，如果这些模型的测评数据够获得的话。

适合使用GPT⑶的任务1般来说，有以下这些情况更适合使用提示 GPT⑶令人惊讶的是，如果我们回看 GPT⑶ 论文的介绍部分，在那里很多初始设计时的目标涵盖了这些任务这意味着那些当初宏伟的目标已经被部分实现了。

1. 创造性和复杂的任务：包括代码（代码补全、自然语言指令生成代码、代码翻译、bug 修复）、文本摘要、翻译、创造性写作（例如写故事、文章、邮件、报告，手机壁纸以及写作的改进等）正如原始的 GPT⑶ 文献中所示，GPT⑶ 被设计用于那些困难和 “没有可能标注” 的任务。

在1定程度上，对于这些任务，先前那种经过微调的模型没有可能应用于真实天下的应用；而 GPT⑶ 使它们成为可能举个例子，最近的文章显示，过去的人类标注的文本摘要已经被 LLM 生成的摘要所超越在某些需要从低、中资源语言翻译到英语的机器翻译任务中，通过提示 PaLM⑸40B，它甚至能够超越微调模型。

在 BLOOM⑴76B 中也观察到了类似的趋势这是因为英语数据通常在预训练语料库中占了很大比例，因此 LLM 擅长于生成英语语句注意到，为了在代码任务中获得良好性能，尽管 Codex 和手机壁纸PaLM 已经在整体上具有比之前模型更好的性能，我们仍然需允许 LLM 多次（k 次）采样，以通过测试样例（使用 pass@k 作为度量）。

2. 只有少数标注或者没有标注数据的任务正如原始的 GPT⑶ 文献所说，GPT⑶ 是为了那些 “昂贵标注” 的任务设计的在这种情况下，用极少量标注数据微调1个更小的模型通常没有可能达到 GPT⑶ 在零样本（zero-shot）、单样本（ont-shot）或少样本（few-shot）的情况下的表现。

3. 分布外（Out-of-distribution, OOD）泛化给定1些训练数据，传统的微调可能会过拟合训练集并且有较差的分布外泛化能力；而少样本的高低文手机壁纸学习（in-context learning）能够有更好的分布外泛化性。

例如，带有提示的 PaLM 能够在对抗自然语言推断任务（Adversarial Natural Language Inference，ANLI）上超越经过微调的 SOTA 模型，而它在正常的语言推断任务上可能仍然劣于微调的 SOTA。

另1个例子是提示 LLM 比微调模型显示出更好的组合泛化能力更好的分布外泛化性可能是因为在高低文学习期间没有需要更新参数，避免了过拟合；或者因为那些过去的分布外样例对于 LLM 而言是分布内的这种使用场景被阐释为 GPT⑶ 的初始设计目标之1：“微调模型在特定任务的数据集上的性能可以达到所谓的手机壁纸人类水平，实际上可能夸大了在真实天下中该任务上的性能，这是因为模型只是学到了训练集中存在的虚假的相关性，以及模型过度拟合了这个训练集狭窄的分布。

”4. 需要处理多种任务的能力，而非关注特定任务上的卓越表现聊天机器人就是这样1种场景，其中，用户期待它能够正确地响应各种各样的任务这可能就是为何 ChatGPT 是 GPT⑶ 最成功的使用场景之1。

5. 那些检索没有可行的知识密集型任务存储在 LLM 中的知识可以显著地提高在知识密集型任务的性能，例如闭卷问答和 MMLU（1个基准数据集，包括来自于 STEM、人文、社科等 57 个学科的选择题，它用于测试 LLM 的天下知识和问题解答的能力）。

然而手机壁纸，如果预先检索的步骤可以被加入来做检索增强的生成，1个微调的更小的模型（例如 Atlas 模型）甚至可以有更好的性能（在闭卷的 NaturalQuestions 和 TrivialQA 数据集上，Atlas 比 PaLM 和最新的 InstructGPT 都要更好）。

检索或者传统的搜索同样是将 GPT⑶ 或 ChatGPT 整合到搜索引擎中的1个必要的步骤，这可以提升生成的准确性，并且提供更多的参考链接以增强说服力但我们应该承认，在某些情况下，检索是没有允许或者没有容易的，比如参加 USMLE (美国医学执照考试)，谷歌已经证明基于 FLAN-PaLM 的模型可以在其中做得很好。

同样的，在 MM手机壁纸LU 基准集中，PaLM⑸40B 有着比其他微调模型更好的性能，甚至后者结合了检索，尽管最新版本的 InstructGPT 还差于这些带有检索的微调 SOTA也请注意，指令调整1个较小的模型也可以实现取更大规模的 LLM 模型接近的效果，这已经在 FLAN-T5 中展现。

6. 1些困难的任务，其中需要 LLM 的涌现能力，比如带有 CoT 的推理和 BIG-Bench 中的复杂任务（包括逻辑推理、翻译、问答、数学任务等）举个例子，PaLM 已经展示，在 7 个包括数学和常识推理的多步推理任务上，8 - 样例的 CoT 比微调 SOTA 在其中 4 个任务上更好，在其它 3 个任务上则基本持平手机壁纸。

这样的成功表现要同时归因于更大规模的模型和 CoTPaLM 还显示了在 BIG-Bench 任务上从 8B 到 62B 再到 540B 模型的没有连续的表现提升，这超出了规模定律（scailing law），被称为 LLMs 的涌现能力。

另外，带有 5 个 Prompt 的 PaLM⑸40B 在 Big-Bench 的 58 项常见任务中的 44 项上优于之前的（少样本）SOTAPaLM⑸40B 在 Big-Bench 的总体表现也优于人类的平均表现。

7. 1些需要模仿人类的场景，或者是其目标是制作性能达到人类水平的通用人工智能同样的，ChatGPT 是其中的1个案例，ChatGPT 使自手机壁纸己更像是1小我，从而取得了现象级的成功这也被阐释为 GPT⑶ 的初始设计目标之1：“人类没有需要大规模监督数据集来学习大多数语言任务。

最多只需要几个例子，人类就可以将各种任务和技巧无缝地混合在1起或者在它们之间切换因此传统的微调模型导致了取人类的没有公平比较，尽管他们声称在许多基准数据集中有着人类水平的性能”8. 在1些传统的接近于语言建模的 NLP 任务上

，少样本 PaLM⑸40B 能够大致匹配或者甚至超过微调的 SOTA，例如：1段话最后1句和最后1个单词的完型填空，以及回指（anaphora）解析需要指出，在这种情况下，零样本的 LLM 已经足够了，单样本或少样本的示例则通常帮助没有大。

另手机壁纸1些任务则并没有需要提示（prompt）1个 GPT⑶ 这样规模的模型：没有适合使用GPT⑶的任务1. 调用 OpenAI GPT⑶ 的 API 超出了预算（例如对于没有太多钱的创业公司）2. 调用 OpenAI GPT⑶ 的 API 存在安全问题（例如数据泄露给 OpenAI，或者可能生成的有害内容）。

3. 没有足够的工程或者硬件资源去部署1个相似大小的模型及消除推断的延迟问题例如，在没有最先进的 80G 的 A100 或者工程资源来优化推断速度的情况下，简单地使用 Alpa 在 16 个 40G 的 A100 上部署 OPT⑴75B 需要 10 秒才能完成单个样例的推断，这对于大多数手机壁纸现实天下的在线应用程序来说是无法接受的延迟。

4. 如果想用 GPT⑶ 替代1本性能良好的、高准确度的微调模型，或者想要在1些特定的单1任务和使用场景下去部署1个 NLU（Natural Language Understanding，自然语言理解）或 NLG（Natural Language Generating，自然语言生成）模型，请3思这是否值得。

对于1些传统的 NLU 任务，比如分类任务，我建议首先尝试微调 FLAN-T5⑴1B 模型，而没有是提示 GPT⑶例如，在 SuperGLUE，1个困难的 NLU 基准数据集（包括阅读理解、文本蕴含、词义消歧、共指消解和因果推理等任务）上，所有手机壁纸的 PaLM⑸40B 的少样本提示性能都劣于微调的 T5⑴1B，并在其中大多数任务上有着显著的差距。

如果使用原始 GPT3，其提示结果取微调 SOTA 的结果之间的差距更大有趣的是，即使是经过微调的 PaLM 也仅比经过微调的 T5⑴1B 有着有限的改进，而经过微调的 PaLM 甚至比经过微调的编 - 解码器模型 32B MoE 模型还要差。

这表明使用更合适的架构（例如编 - 解码器模型）微调较小的模型仍然是比使用非常大的仅解码器模型更好的解决方案，无论是微调还是提示来使用这些大模型根据最近的1篇论文，即使对于最传统的 NLU 分类任务 —— 情感分析，ChatGPT 仍然比经过微调的较手机壁纸小模型差。

1些没有以现实天下数据为基础的困难任务例如，BigBench 中仍然有许多对 LLM 来说困难的任务具体地说，在 35% 的 BigBench 任务上，人类的平均表现仍然高于 PaLM⑸40B，并且在某些任务中，扩大模型规模甚至无济于事，例如导航和数学归纳。

在数学归纳中，当提示中的假设没有正确时（例如 “2 是奇数”），PaLM 会犯很多错误在逆规模定律竞赛 (Inverse Scaling Law Challenge) 中，也观察到了类似的趋势，例如重新定义数学符号（例如提示可能 “将 π 重新定义为 462”）后再使用这个符号。

在这种情况下，LLM 中的现实天下先验知识太强而无法被手机壁纸提示覆盖，而微调较小的模型可能可以更好地学习这些反事实知识在很多多语言任务和机器翻译任务中，使用少样本的提示 GPT 仍然要比微调的更小的模型更差这很可能是由于除英语以外的其它语言在预训练语料库中占比很少。

当从英语翻译为其他语言，以及翻译高资源语言到英语时，PaLM 和 ChatGPT 仍然比在机器翻译任务上微调的更小的模型要差对于多语言问答任务来说，在少样本的 PaLM⑸40B 和微调的更小模型之间还存在较大差距。

对于多语言文本生成（包括文本摘要和数据到文本生成），在少样本的 PaLM⑸40B 和微调的更小模型之间还存在较大差距在大部分任务上即使微调的 PaLM⑸40B 也仅仅比微调的手机壁纸 T5⑴1B 有有限的提升，并仍然劣于微调的 SOTA。

对于常识推理任务，在最好的少样本提示 LLM 和微调的 SOTA 之间仍然存在着较大的差距，例如：OpenbookQA，ARC（包括 Easy 和 Challenge 版本）以及 CommonsenseQA（甚至使用了 CoT 提示）。

对于机器阅读理解任务，在最好的少样本提示 LLM 和微调的 SOTA 之间仍然存在着较大的差距在大多数数据集上，这个差距可能非常巨大这可能是因为所有回答问题所需的知识都已经包含在给出的文本中，并没有需要 LLM 中的额外知识。

总结1下，上面的这些任务可以被归为以下类别之1：1. 1些 NLU 任务，既没有需要手机壁纸额外的知识也没有需要 LLM 的生成能力这意味着测试数据大多数都和手头的训练数据在同1个分布当中在这些任务上，过去微调的较小模型已经表现很好了。

2. 1些没有需要额外的来自 LLM 中知识的任务，因为每1个例子已经在高低文或者提示中包含了足够的知识，例如机器阅读理解3. 1些需要额外知识，但没有太可能从 LLM 中获得这样的知识，或者 LLM 没有太可能见过类似分布的任务。

，例如1些低资源语言中的任务，LLM 在这些语言中只有有限的预训练样本4. 1些任务，需要取 LLM 中包含的知识所没有1致的知识，或者并非基于现实天下的语言数据的知识因为 LLM 是在现实天下的语言数据上训练的，它难以在新的任务中利手机壁纸用反事实知识覆盖原有知识。

除了在逆规模定律挑战中的 “重新定义数学符号” 问题以外，还有另1个任务，即复述有细微改动的名言，其中 LLM 被要求复述1个在 prompt 中出现的被修改的名言在这种情况下，LLM 倾向于重复出名言的原始版本，而非修改过后的版本。

5. 1些任务需要来自 LM 的知识，但也宽重依赖于操纵这些知识，而 LLM 的 “预测下1个 token” 的目标无法轻易实现这种操纵1个例子是1些常识推理任务CoT 和 least-to-most 提示可以帮助 LLM 推理的原因可能是他们可以更好地调出那些连续的预训练文本，这些连续文本恰好模仿了规划和分解 / 组合知识的过程。

因此，手机壁纸CoT 和 least-to-most 提示在1些数学推理、代码和其他简单的自然语言推理任务中表现良好，但在许多常识推理（例如在逆规模定律竞赛中展示的演绎推理任务）和自定义符号推理任务中仍然表现没有佳。

这些任务通常没有被自然语言数据中的大多数真实天下的连续序列所包含，而需要操纵分散在各处的知识来完成6. 1些容易受到高低文学习样例或者真实天下数据中存在的虚假相关性影响的任务1个例子是来自于逆规模定律竞赛中的涉及否定词的问答。

如果1个 LLM 被提问：“如果1只猫的体温低于平均水平，它就没有在……”，它倾向于回答 “危险当中” 而非 “安全范围 “这是因为 LLM 受到常见的 “低于平均体温” 和 “手机壁纸危险” 之间的关系所支配，而在否定的情况下，这是1种虚假的相关性。

7. 1些目标取处理语言数据显著没有同的任务，例如：回归问题，其中微调模型很难被 LLM 取代至于多模态任务，它们没有能被 LLM 解决，但是可能能从大规模的预训练多模态模型中受益8. 1些任务没有需要 LLM 的涌现能力。

为了准确地对更多此类任务进行鉴别，我们需要更好地了解 LLM 训练期间，涌现能力是从何产生的注意到，在现实天下的使用场景中，即使由于无法满足延迟要求因而无法在线地使用 LLM，仍然可以使用 LLM 离线生成或标注数据。

此类自动标注的标签可以在线查找并提供给用户，或用于微调较小的模型使用此类数据微调较小的模型可以减少手机壁纸训练模型所需的人工注释数据，并将 LLM 的1些新兴能力（例如 CoT）注入较小的模型总之，当有足够的标记数据时，考虑到开源 FLAN-T5 在许多任务中的惊人性能，我推荐那些调用 OpenAI API 的资源有限的个别，应该首先尝试在目标任务上微调 FLAN-T5⑴1B。

此外，根据最近在 MMLU 数据集上，FLAN-PaLM⑸40B 取最新版本的 InstructGPT 的性能（根据 HELM）相比好得惊人的性能，谷歌可能拥有比 OpenAI 更强大的基础模型，如果 OpenAI 已经通过 API 发布了他们获得的最强的 LLM。

谷歌唯1剩下的步骤是通过人类反馈使这个 LLM 取对话场手机壁纸景对齐（alignment）如果他们很快发布类似 ChatGPT 的或者更好的聊天机器人，我没有会感到惊讶 —— 尽管他们最近 “失败” 地展示了1版可能基于 LaMDA 的 Bard。

英文原版作者：杨靖锋，现任亚马逊科学家，本科毕业于北大，硕士毕业于佐治亚理工学院，师从 Stanford 杨笛1教授杨昊桐译，王骁修订感谢靳弘业对第1版稿件的建议，感谢陈3星，符尧的讨论和建议英文原版：

https://jingfengyang.github.io/gpt推特原文：https://twitter.com/JingfengY/status/1625003999387881472参考文献[1] H手机壁纸ELM: Holistic Evaluation of Language Models and its board: https://crfm.stanford.edu/helm/v0.2.0/?group=core_scenarios

[2] GPT3: Language Models are Few-Shot Learners[3] PaLM: Scaling Language Modeling with Pathways[4] OPT: Open Pre-trained Transformer Language Models

[5] BLOOM: A 176B-Parameter Open-手机壁纸Access Multilingual Language Model[6] FLAN-T5/PaLM: Scaling Instruction-Finetuned Language Models

[7] The Flan Collection: Designing Data and Methods for Effective Instruction Tuning[8] InstructGPT: Training language models to follow instructions with human feedback

[9] Yao Fu’s blog on “Tracing Emerg手机壁纸ent Abilities of Language Models to their Sources”[10] Inverse Scaling Prize: https://github.com/inverse-scaling/prize

[11] Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

随机文章

为什么所有游戏停服1天（为什么所有GPT⑶复现都失败了？使用ChatGPT你应该知道这些）gpt⑶ 难以置信

您可能也感兴趣:

最近发表

网站分类

TAG标签

随机文章

为什么所有游戏停服1天（为什么所有GPT⑶复现都失败了？使用ChatGPT你应该知道这些）gpt⑶ 难以置信

您可能也感兴趣:

为您推荐

为什么所有游戏停服1天（为什么所有GPT⑶复现都失败了？使用ChatGPT你应该知道这些）gpt⑶ 难以置信

最近发表

网站分类

TAG标签