机文章

gpt⑵模型gpt4:快跑!传说中的GPT4真的来了!多模态吊打旧版ChatGPT! 快来看

 

互联网是1个充满惊喜和变革的领域,每天都有新的事件发生。让我们抛开繁忙的日常,1起探索最近互联网带给我们的1些新鲜事物吧。

牛逼!!!对没有起,我实在没忍住说出这两个字!过了1遍资料,先说结论:GPT4这波OpenAI直接王炸!要没有起!真的是遥遥领先!刚晚上十1点还和同学讨论GPT4咋还没出来呢,我好像记成16号了,还想着这没有是和百度的文心1言撞上了嘛,到时怕是免没有了误伤啊。

结果凌晨1点半突然刷到新闻,大脑有点爆炸,毕竟GPT4是个活在传说中很的模型了,1时竟然没有敢相信反复确认为真以后1时有点恍惚,1来是有点晚了,头有点晕;二来,有点担心GPT4的效果,千呼万唤始出来,既怕它太强,又怕它没有够强!忍没有住翻身起床冲了杯麦片,挑灯夜战也要看看GPT到底有多强!。

上面我们就来揭开GPT4的神秘面纱吧!资料简介:https://openai.com/research/gpt

We’ve created GPT, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.

译文:我们创建了 GPT,这是 OpenAI 努力扩展深度学习的最新里程碑 GPT1个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实天下场景中的能力没有如人类,但在各种专业和学术基准上表现出人类水平的表现。

资源列表卧槽,震惊!!!居然有paper,妈耶,以后我再也没有喷OpenAI为CloseAI了。

具体的,官方资源包括:GPT Technical Report:98页,https://cdn.openai.com/papers/gpt.pdfGPT System Card:60页,https://cdn.openai.com/papers/gpt-system-card.pdf

试用 ChatGPT Plus:暂时没有知道是否是在plus中集成了GPT4,因为我没开plus加入 API 候补名单观看开发者演示直播为 OpenAI 评估做出贡献可以先加入GPT API waitlist:。

确认了1下,ChatGPT Plus确实已经接入GPT4了。没有说了,我先去充会员了!

GPT4官方解读概览我们创建了 GPT,这是 OpenAI 努力扩展深度学习的最新里程碑GPT1个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实天下场景中的能力没有如人类,但。

在各种专业和学术基准上表现出人类水平的表现具体介绍:我们创建了 GPT,这是 OpenAI 努力扩展深度学习的最新里程碑GPT1个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实天下场景中的能力没有如人类,但在各种专业和学术基准上表现出人类水平的表现。

例如,它通过了模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT.5 的得分在倒数 10% 左右我们花了 6 个月的时间 使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT,从而在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)。

在过去的两年里,我们重建了整个深度学习堆栈,并 Azure 1起为我们的工作负载从头开始共同设计了1台超级计算机1年前,我们训练 GPT.5 作为系统的第1次“试运行”我们发现并修复了1些错误并改进了我们的理论基础。

结果,我们的 GPT 训练运行(至少对我们而言!)前所未有地稳定,成为我们能够提前准确预测其训练性能的第1个大型模型随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。

我们正在通过 ChatGPT 和 API(有候补名单)发布 GPT 的文本输入功能为了准备图像输入功能以获得更广泛的可用性,我们正在1个合作伙伴密切合作我们还开源了OpenAI Evals,这是我们用于自动评估 AI 模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进1步改进。

能力特性:模态:图文多模态,接受图文输入,输出文本效果:现实场景可能没有如人类,但在各种专业和学术基准上表现出人类水平的表现GPT4相比于旧版的ChatGPT,GPT has enhanced capabilities in:

Advanced reasoningComplex instructionsMore creativity在随意的谈话中,GPT.5 和 GPT 之间的区别可能很微妙当任务的复杂性达到足够的阈值时,差异就会出现——GPT 比 GPT.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,我们在各种基准测试中进行了测试,包括最初为人类设计的模拟考试我们通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022023 年版本的模拟考试来继续进行。

我们没有针对这些考试进行专门培训模型在训练期间看到了考试中的少数问题,但我们认为结果具有代表性——详情请参阅我们的技术报告。上面1些能力展示(OpenAI秀肌肉):

许多现有的 ML 基准测试都是用英语编写的为了初步了解其他语言的能力,我们使用 Azure Translate(参见附录)将 MMLU 基准——1套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言。

在测试的 26 种语言中的 24 种中,GPT 优于 GPT.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:

我们也在内部使用 GPT,对支持、销售、内容审核和编程等功能产生了巨大影响我们还使用它来帮助人类评估 AI 输出,开始我们对齐策略的第二阶段视觉输入GPT支持图文输入,这里单独展示1下,更多示例请前往体验。

GPT 可以接受文本和图像提示,这纯文本设置并行,允许用户指定任何视觉或语言任务具体来说,它在给定由散布的文本和图像组成的输入的情况下生成文本输出(自然语言、代码等)在1系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT 展示了纯文本输入类似的功能。

此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少量镜头和思维链提示。图像输入仍然是研究预览,没有公开。

我们通过在1套狭窄的标准学术视觉基准上对其进行评估来预览 GPT 的性能然而,这些数字并没有能完全代表其能力范围,因为我们没有断发现该模型能够处理的新的和令人兴奋的任务我们计划很快发布进1步的分析和评估数据,并彻底调查测试时间技术的影响。

可操纵性我们1直致力于我们关于定义 AI 行为的帖子中概述的计划的各个方面,包括可操纵性具有固定冗长、语气和风格的经典 ChatGPT 本性没有同,开发人员(以及很快的 ChatGPT 用户)现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 的风格和任务。

系统消息允许 API 用户在1定范围内显着定制他们的用户体验我们将在这里没有断改进(特别是知道系统消息是“越狱”当前模型的最简单方法,即对边界的遵守并没有完美),但我们鼓励您尝试1下并让我们知道您认为

限制尽管功能强大,但 GPT 早期的 GPT 模型具有相似的局限性最重要的是,它仍然没有完全可靠(它“幻觉”事实并出现推理错误)在使用语言模型输出时应格外小心,特别是在高风险高低文中,使用符合特定用例需求的确切协议(例如人工审查、附加高低文的基础或完全避免高风险使用) .。

虽然仍然是1个真正的问题,但 GPT 相对于以前的模型(它们本身在每次迭代中都在改进)显着减少了幻觉。在我们的内部对抗性真实性评估中,GPT 的得分比我们最新的 GPT.5 高 40%:

我们在 TruthfulQA 等外部基准测试方面取得了进展,它测试了模型将事实对抗性选择的1组错误陈述分开的能力这些问题事实没有正确的答案配对,这些答案在统计上很有吸引力GPT 基本模型在此任务上仅比 GPT.5 略好;然而,在。

RLHF后训练(应用GPT.5相同的过程)以后,存在很大差距检查上面1些例子,GPT 拒绝选择俗语(你没有能教老狗新把戏),但它仍然会遗漏细微的细节(猫王没有是演员的儿子)该模型的输出可能存在各种偏差——我们在这些方面取得了进展,但还有更多工作要做。

根据我们最近的博客文章,我们的目标是让我们构建的 AI 系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内进行定制,并就这些范围应该是什么获得公众意见GPT 普遍缺对绝大部分数据中止后(2021 年 9 月)发生的事件的了解,也没有从经验中吸取教训。

它有时会犯1些简单的推理错误,这些错误似乎跨多个领域的能力没有相称,或者在接受用户明显的虚假陈述时过于轻信有时它会像人类1样在难题上失败,例如在它生成的代码中引入安全漏洞GPT 也可能自信地在其预测中犯错,在可能出错时没有注意仔细检查工作。

有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常正确概率相匹配)然而,通过我们目前的训练后过程,校准减少了

风险缓解措施我们1直在对 GPT 进行迭代,以使其从训练开始就更安全、更1致,工作包括预训练数据的选择和过滤、评估和专家参、模型安全改进以及监控和执行GPT 会带来之前模型类似的风险,例如生成有害建议、错误代码或没有准确信息。

但是,GPT 的附加功能会带来新的风险面为了了解这些风险的程度,我们聘请了 50 多位来自 AI 对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家来对模型进行对抗性测试他们的发现特别使我们能够在需要专业知识进行评估的高风险领域测试模型行为。

这些专家的反馈和数据用于我们对模型的缓解和改进;例如,我们收集了额外的数据来提高 GPT 拒绝有关如何合成危险化学品的请求的能力GPT 在 RLHF 训练期间加入了1个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出(如我们的

使用指南所定义)奖励由 GPT 零样本分类器提供,该分类器根据安全相关提示判断安全边界和完成方式为了防止模型拒绝有效请求,我们从各种来源(例如,标记的生产数据、人类红队、模型生成的提示)收集了多样化的数据集,并在二者上应用安全奖励信号(具有正值或负值)允许和没有允许的类别。

GPT.5 相比,我们的缓解措施显着改善了 GPT 的许多安全特性 GPT.5 相比,我们已将模型响应没有允许内容请求的倾向降低了 82%,并且 GPT 根据我们的政策响应敏感请求(例如,医疗建议和自我伤害)的频率提高了 29% .。

总的来说,我们的模型级干预增加了引发没有良行为的难度,但这样做仍然是可能的此外,仍然存在生成违反我们使用指南的内容的“越狱” 随着人工智能系统“每个代币的风险”增加,在这些干预中实现极高的可靠性将变得至关重要;目前,重要的是用部署时安全技术(如监控滥用)来补充这些限制。

GPT 和后续模型有可能以有益和有害的方式对社会产生重大影响我们正在外部研究人员合作,以改进我们理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估我们很快将分享更多关于 GPT 和其他人工智能系统的潜在社会和经济影响的想法。

训练过程以前的 GPT 模型1样,GPT 基础模型经过训练可以预测文档中的下1个单词,并且使用公开可用的数据(例如互联网数据)以及我们已获得许可的数据进行训练这些数据是网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和1致的陈述,并代表各种各样的意识形态和想法。

因此,当出现问题提示时,基本模型可以以多种可能用户意图相去甚远的方式做出响应为了使其护栏内的用户意图保持1致,我们使用强化学习和人工反馈 ( RLHF )来微调模型的行为请注意,该模型的能力似乎次要来自预训练过程——RLHF 没有会提高考试成绩(如果没有积极努力,它实际上会降低考试成绩)。

但是模型的控制来自训练后过程——基础模型需要及时的工程设计甚至知道它应该回答问题可预测的扩展GPT 项目的1大重点是构建可预测扩展的深度学习堆栈次要原因是,对于像 GPT 这样的非常大的训练运行,进行广泛的特定于模型的调整是没有可行的。

我们开发的基础设施和优化在多个尺度上具有非常可预测的行为为了验证这种可扩展性,我们通过从使用相同方法训练但使用 10,000 倍更少计算的模型进行推断,准确预测了 GPT 在我们内部代码库(没有是训练集的1部分)上的最终损失:。

现在我们可以准确地预测我们在训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标。例如,我们成功预测了HumanEval数据集子集的通过率,从计算量减少 1,000 倍的模型推断:

有些能力仍然难以预测例如,Inverse Scaling Prize 是1项竞赛,目的是寻找随着模型计算量的增加而变得更糟的指标,而后见之明的忽视是获胜者之1就像最近的另1个结果1样, GPT 扭转了趋势:。

我们认为,准确预测未来的机器学习能力是安全的重要组成部分,但相对于其潜在影响而言,它并没有得到足够的重视(尽管我们受到了多个机构的努力的鼓舞)我们正在加大力度开发方法,为社会提供更好的未来系统预期指导,我们希望这成为该领域的共同目标。

OpenAI 评估我们正在开源OpenAI Evals,这是我们的框架,用于创建和运行基准测试以评估 GPT 等模型,同时逐个样本地检查它们的性能我们使用 Evals 来指导我们模型的开发(识别缺点和防止回归),我们的用户可以应用它来跟踪模型版本(现在将定期发布)的性能和没有断发展的产品集成。

例如,Stripe 使用 Evals 来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性由于代码全部开源,Evals 支持编写新的类来实现自定义评估逻辑然而,根据我们自己的经验,许多基准测试都遵循少数“模板”之1,因此我们还包括了内部最有用的。

模板(包括“模型分级评估”模板——我们发现 GPT- 4 令人惊讶地能够检查自己的工作)通常,构建新评估的最有效方法是实例化这些模板之1并提供数据我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么。

我们希望 Evals 成为共享和众包基准测试的工具,代表最广泛的故障模式和困难任务作为要遵循的示例,我们创建了1个逻辑难题eval,其中包含十个 GPT 失败的提示Evals 还实施现有基准兼容;我们已经包含了几个实施学术基准的。

笔记本和1些集成CoQA (的小子集)的变体作为示例我们邀请所有人使用 Evals 来测试我们的模型并提交最有趣的示例我们相信 Evals 将成为使用和构建我们模型的过程中没有可或缺的1部分,我们欢迎直接贡献、问题和。

反馈聊天GPT加ChatGPT Plus 订阅者将在 chat.openai.com 上获得具有使用上限的 GPT 访问权限我们将根据实践中的需求和系统性能调整确切的使用上限,但我们预计会受到重的容量限制(尽管我们将在接下来的几个月内进行扩展和优化)。

根据我们看到的流量模式,我们可能会为更高容量的 GPT 使用引入新的订阅级别;我们也希望在某个时候提供1些免费的 GPT 查询,这样那些没有订阅的人也可以尝试1下应用程序接口要访问 GPT API(它使用 gpt.5-turbo 相同的。

ChatCompletions API),请注册我们的候补名单我们今天将开始邀请1些开发人员,并逐步扩大规模以平衡容量需求如果您是研究 AI 的社会影响或 AI 对齐问题的研究员,您还可以通过我们的Researcher Access Program。

申请补贴访问获得访问权限后,您可以向 gpt 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段),随着时间的推移,我们会在制作新版本时自动将其更新为我们推荐的稳定模型(您可以固定当前版本通过调用 gpt-0314,我们将支持到 6 月 14 日)。

定价为每 1k 个提示令牌 0.03 美元和每 1k 个完成令牌 0.06 美元默认速率限制为每分钟 40k 个令牌和每分钟 200 个请求gpt高低文长度为 8,192 个标记我们还提供对我们的 32,768-高低文(约 50 页文本)版本 gpt2k 的有限访问,该版本也将随着时间的推移自动更新(当前版本 gpt2k-0314,也支持到 6 月 14 日). 定价为每 1K 提示令牌 0.06 美元和每 1k 完成令牌 0.12 美元。

我们仍在提高长期高低文的模型质量,并希望得到有关它在您的用例中表现如何的反馈我们正在根据容量以没有同的速率处理对 8K 和 32K 引擎的请求,因此您可能会在没有同时间获得对它们的访问权限结论我们期待 GPT 成为1个有价值的工具,通过为许多应用程序提供动力来改善人们的生活。

还有很多工作要做,我们期待通过社区在模型之上构建、探索和贡献的集体努力来改进这个模型更多信息:阅读论文| 查看系统卡片| 试用 ChatGPT Plus | 加入 API 候补名单| 观看开发者演示直播(太平洋时间今天下战书 1 点)

| 为 OpenAI 评估做出贡献技术详解技术详解将次要围绕官方放出来的两篇技术paper展开,由于内容较多,我会尽快在下1篇文章中更新,敬请期待GPT Technical Report:98页,。

https://cdn.openai.com/papers/gpt.pdfGPT System Card:60页,https://cdn.openai.com/papers/gpt-system-card.pdf

告发/反馈

如果您觉得这篇文章对您有所帮助,请在下方留下您的评论,让更多人看到。

为您推荐

gpt⑵模型gpt4:快跑!传说中的GPT4真的来了!多模态吊打旧版ChatGPT! 快来看

gpt⑵模型gpt4:快跑!传说中的GPT4真的来了!多模态吊打旧版ChatGPT! 快来看

互联网是1个充满惊喜和变革的领域,每天都有新的事件发生。让我们抛开繁忙的日常,1起探索最近互联网带给...

2023-07-07 栏目:科技派

当前非电脑浏览器正常宽度,请使用移动设备访问本站!