命令行gpt分区GPT4:GPT⑷调用插件40次都没成功,果断放弃,无效调用、拒绝回答时有发生 原创
机器之心报道 编辑:陈萍 GPT-4 调用的第三方插件到底效果如何?有研究者对 Wolfram Alpha 、Code Interp...
哈喽大家好!今天我非常荣幸能够给大家带来这篇文章,希望通过我的文字能够给大家带来新的知识和启示。在我们的日常生活中,总会遇到各种各样的问题和挑战,而这篇文章就是希望能帮助大家解决这些问题,让我们的生活更加美好。在接下来的内容中,我会详细地介绍文章的主题和要点,希望大家能够喜欢并从中受益。
机器之心报道编辑:陈萍GPT⑷ 调用的第3方插件到底效果如何?有研究者对 Wolfram Alpha 、Code Interpreter 做了份测试今年早些时候,OpenAI 开启 ChatGPT 集成第3方插件功能,打破 ChatGPT 没有能联网这1封印。
很多人赞叹道:ChatGPT 的横空出世可以看作是「iPhone 时刻」,而第3方插件的集成,就是「iOS App Store」时刻据没有完全统计,消息公布以后的没几天,ChatGPT 就上线了 70 多款插件。
几个月过去了,这些插件对 ChatGPT 的作用到底如何?本文来自纽约大学的 Ernest Davis 、德克萨斯大学奥斯汀分校的 Scott Aaronson ,他们给 ChatGPT 背后的大模型 GPT⑷ 调用的插件来了次摸底考试。
论文地址:https://arxiv.org/pdf/2308.05713.pdf具体而言,该报告描述了对大型语言模型 GPT⑷ 在 2023 年 6 月至 8 月期间,使用 Wolfram Alpha(以下称为 GPT4+WA)和 Code Interpreter(以下称为 GPT4+CI)插件,在 105 道高中和大学水平的科学和数学问题长进行了测试。
他们得出以下结论:在测试的各种问题中,带有任1插件的 GPT⑷ 明显强于 GPT⑷ 本身另外,该研究还得出结论,几乎可以肯定的是 GPT⑷ 强于1年前存在的 AI然而,其可靠性还远远没有够;它经常输出错误的答案或无法输出任何答案。
从总分来看,本文认为这些系统的表现相当于中等本科生的水平这些系统解决了1些即使是有能力的学生也会觉得具有挑战性的问题,而它们却无法解决1些即使是中学生也会觉得容易的问题除此以外,该研究还发现,GPT⑷ 和插件之间还有很大的改进空间,特别是 Wolfram Alpha。
GPT⑷ 经常以 Wolfram Alpha 难以接受或产生有用输出的方式来表述问题例如,在问题 B.35 中(参见论文附录),GPT⑷ 调用 Wolfram Alpha 40 次,试图获取某个事件的日期,但都没有成功,然后放弃了,然而,没有插件的 GPT⑷ 都知道该日期。
在问题 A.14 中,要求 GPT⑷ 以天文学上的长度单位给出答案,Wolfram Alpha 返回了以米表示的正确答案,但随后系统无法将其转换为天文单位,尽管对 Wolfram Alpha 进行了八次调用。
GPT⑷ 有时还会创建对插件的无用调用,例如在问题 C.11 中,GPT 取 WA 进行了以下交互:这些结果表明,GPT⑷ 未能充分利用插件的功能,尤其是 Wolfram Alpha总体而言,这些系统在可以通过调用单个公式解决的问题上最为强大。
他们通常在人类倾向于使用空间可视化来解决的问题上表现较弱此外,这些系统通常没有擅长解决涉及组合多种没有同类型计算的问题,难以处理非常大或非常小的数字GPT⑷ 有1定能力检测插件返回的答案是否有意义或物理意义,但并没有十分可靠,并且几乎没有能力诊断错误原因或从中恢复。
实验结果该研究创建了3个测试集:「Arbitrary Numerical」测试集、「Calculation-Free」测试集和「Motivated Numerical」测试集 表 1 为3个测试集问题的成功和失败示例:其中 3 个成功案例,3 个失败案例。
在成功案例中,GPT4+WA 和 GPT4+CI 都得到了正确答案,失败案例则相反作者表示他们的测试集太小,结构也太随意,无法支持统计上有效的结论,但这项研究也暗示了1些结论,两个插件在功能上都很强大,双方都能解决对方无法解决的问题。
上面我们看1些实验结果下表为在科学和数学上的结果(前 16 个问题)下表为在科学和数学问题上的结果,包括库仑定律、3维几何、概率等GPT4+WA 得分为 8.25 分(总分 32 分);GPT4+CI 得分为 10 分(总分 32 分)。
下表为在「Calculation-Free」测试集上第 1⑶2 问题上的结果问题类别可概括为日食、距离组合问题、河流中各点之间的距离问题等下表为在「Calculation-Free」测试集上的结果,GPT4+WA: 30.7/53,GPT4+CI:34.2/53 ,随机猜测的得分为 :22.6/53 。
下表实验为在 Motivated Numerical 测试集上结果,涉及黑洞、几何、重力等类别,GPT4+WA:14.3/20;GPT4+CI:13.8/20 了解更多内容,请参考原论文© THE END 。
转载请联系本公众号获得授权投稿或寻求报道:content@jiqizhixin.com
更多内容:https://php.886321.xyz/ArraysandStrings/1426.html
当前非电脑浏览器正常宽度,请使用移动设备访问本站!