随机文章

如何向公司账户转账（向 GPT⑶ 问同1个问题，某些语言要贵 15.77 倍！）gpt⑶ 1篇读懂1

2023-05-23 17:47:52 分类:科技派作者:axdmin 阅读:

众所周知，调用 OpenAI 的 API 是需要收费的，具体收费标准需根据 token 数量而定——其中，根据语言没有同，同1个问题所花费的 token 也有很大没有同原文链接：https://denyslinkov.medium.com/why-is-gpt⑶⑴5⑺7x-more-expensive-for-certain-languages⑵b19a4adc4bc。

未经允许，禁止转载！作者 | Denys Linkov译者 | 弯月责编 | 郑丽媛出品 | CSDN（ID：CSDNnews）最近，ChatGPT 风靡全球，重新点燃了人们对大型语言模型的热情虽然ChatGPT 作为手机壁纸演示是免费的，但其常规使用的模型。

（比如 GPT⑶）是收费的，使用量根据 token（token 或叫词语，大型语言模型将文本中的句子、段落切分成字符串序列，而其中的元素通常称为 token）来计算输入1个短语时，你可以通过分词器页面预览该短语中包含多少 token。

上面，我们来输入1个英文短语，看看它使用了多少个 token。

上面来试试法语。

上面是简体中文。

还有韩文。

同1句话，英语的 token 为 4 个，法语为 7 个，中文为 15 个，而韩文为 23 个——为何同1个句子的 token，数量差异会如此巨大？

分词，将语言解析为字节大小的片段分词（Tokenization）是1种将字符手机壁纸和单词组合成通用模式的方法实现技术有很多种，而且每种技术都有其优点和缺点没有同模型可以使用同1种分词器，但研究人员通常会根据希望优化的任务选择特殊的分词器。

如开头所示，我们看到了1个句子中包含 token 数量的例子，上面我们尝试将其应用于更全面的数据集此处，我们将使用1个亚马逊发布的数据集 MASSIVE（https://www.amazon.science/blog/amazon-releases⑸1-language-dataset-for-language-understanding）。

，其中包含 100 多万个短语，更准确来说是话语（utterance）。MASSIVE 将相同的话语手机壁纸翻译成了 51 种语言，因此非常适合我们的这个实验。

图：MASSIVE 数据集朝着多语言自然语言理解模型迈出了1步，这种模型可以轻松推广到新语言（亚马逊，2022 年）上面，我们使用 8 个没有同的分词器（都来自通用语言模型）来可视化 MASSIVE 数据集包含多少个 token。

图 1：每个模型分析出的 MASSIVE 数据集中英语以及其他 50 种语言包含的 token 数量我们来看看这张图：X 轴是分词器的名称，Y 轴是token 数量我们可以看到，GPT 和 Facebook 的 OPT 模型在 token 数量上的方差最大，它们。

似乎对英语进行了优化，其他模型在 token 数量上相对手机壁纸更加平衡。

图 2：语言样本的 token 分布我们来看看最大 token 数取最小 token 数之间的比率，这样就可以大致了解成本因素的影响。

图 3：最佳分词取最差分词之间的比率可以看到，GPT 是排名最低的分词器的 15.77 倍。

测试提示接下来，我们来看看完成1项任务所需的成本在没有提示的情况下，直接通过 GPT⑶ 运行这些话语，每种语言的成本是多少？GPT⑶ 的定价是公开的，最常见的 GPT⑶ 版本是 DaVinci

这个单价乘以上述统计的 token 数，最终我们得到的结果是：token 数量最多的语言成本为 27.98 美元，而最便宜的语言只有 1.76 美元——这个差异未免太手机壁纸大了上面，假设我们为每个话语添加1个提示，例如“rewrite the following sentence into a nicer tone”（将上面这句话的语气改得更柔和1些）。

另外，我们还需要考虑响应，因为这是 token 数量统计的1部分在这个实验中，我们使用了大量英语和马拉雅拉姆语（印度南部喀拉拉邦通行的语言）来测试前 51 个话语最终的结果如下图所示，二者相差 15.69 倍，取我们最初的。

分词实验1致。

图 4：英语取马拉雅拉姆语的Token使用量之比

成本以外的影响随着大型语言模型的应用越来越广泛，英语和非英语之间的差距只会越来越大准确性1直是1个标准问题，因为我们使用的文本语料手机壁纸库比较小，且大多数基准测量的都是英语的性能，很少有母语人士阅读训练数据确认其使用有效性。

姑且先将准确性放在1边，单纯看 token 用量增加的影响，可能会有四个方面：更高的成本、更长的等待时间、更少表达的提示和更有限的响应▶ 更高的成本：许多小语种次要是南半球在使用，token 的使用量却取美元挂钩，所以全球很多地区都负担没有起大型语言模型 API 的使用费用。

这似乎意味着，在成本下落之前，该领域的发展将很艰难出于这个原因，相较于使用英语、法语、西班牙语或中文提示的公司，使用小语种提示的创业公司，成本会更高▶ 更长的等待时间：由于生成 token 需要很多时间，因此某些任务将无法执行。

基于 GP手机壁纸T 的模型1次只能预测下1个 token，这意味着如果需要生成许多 token，响应会非常慢使用这些语言实现的实时搜索或聊天机器人支持等某些任务速度会太慢，本来只需要 200 毫秒的应用程序可能需要 3 秒。

▶ 更少表达的提示：考虑到 token 的生成限制，1些提示可能无法使用目前 GPT⑶ 的限制为 2048 个 token，即目前基于 GPT 模型的提示长度受到限制，因此需要更长提示的任务（比如汇总摘要）会受到很大影响。

▶ 更有限的响应：响应限制也是1个需要考虑到因素。GPT⑶ 最多只能返回 4000 个 token，大致相当于用某种语言生成1条推文或是用其他语言生成博客文章的长度。手机壁纸

总结：为何 token 针对英语进行了优化？那么，为何分词如此侧重于英语呢？原因是互联网上的大部分内容都是用英语书写的，而这些模型就是以这些内容为基础训练的分词器的目标是为模型创建表达模式，将文本压缩成小块，并提高模型的准确性。

既然大多数基准测试和训练数据都是英文的，那么针对英语进行优化也就没有足为奇了然而，有些模型拥有更具代表性的分词器，因此更适合处理多语言任务通过上述实验，我们看到的 8 个模型中，有 5 个模型的分词器价差相对较小。

目前研究人员和工程师还在努力获取更准确更平等的结果，上面列出的模型之1 NLLB（No Language Left Behind）是 Facebook 开源手机壁纸的项目，可翻译 200 种语言因此，如图 3 所示，该模型的分词比率最佳。

好在，目前语言模型的成本已大幅下落，今年 Open AI 的成本下落了 66%商业及开源模型在处理长文本方面的能力在持续提升，单独运行的难度也越来越低另1方面，运行这些模型的硬件速度也在没有断提升，价格也随之越来越便宜，我们应该齐心协力创建更易于使用的各种语言模型。

推荐阅读：▶小米辟谣武汉总部35岁以上员工只保留10%；歉田致歉！200万车主车辆数据遭泄露；jQuery 3.7.0 发布|极客头条▶苹果上演“无间道”？故意泄露假消息“钓鱼”，成功抓获 iOS 17 内部爆料者

▶突发！OPPO 关停“造芯”营业 ZEKU：近手机壁纸 3000 名员工“原地失业”，赔偿 N+3

您可能也感兴趣:

标签：转账账户 GPT 某些语言如何问题 15.77 公司

随机文章

如何向公司账户转账（向 GPT⑶ 问同1个问题，某些语言要贵 15.77 倍！）gpt⑶ 1篇读懂1

您可能也感兴趣:

最近发表

网站分类

TAG标签

随机文章

如何向公司账户转账（向 GPT⑶ 问同1个问题，某些语言要贵 15.77 倍！）gpt⑶ 1篇读懂1

您可能也感兴趣:

为您推荐

如何向公司账户转账（向 GPT⑶ 问同1个问题，某些语言要贵 15.77 倍！）gpt⑶ 1篇读懂1

如何向公司账户转账（向 GPT⑶ 问同1个问题，某些语言要贵 15.77 倍！）gpt⑶ 1篇读懂

最近发表

网站分类

TAG标签