gpt⑶ 中文手机版gpt4和chatGPT的区别:当GPT⑷化身主考官:取ChatGPT处于同水平的有这些 1看就会
有道题谷歌Bard拒绝回答...
当我们谈论互联网时,我们总是能发现许多令人兴奋的事情。今天,就让我们坐下来,聊1聊最近在这个令人着迷的领域中发生的1些令人瞩目的事件。
魏亦豪 投稿量子位 | 公众号 QbitAIGPT⑷太强,甚至已经化身“主考官”了!给其他市面上支流的大模型打分,结果自己给了自己最高分:95.5(好,给自己留点努力的空间)没有过随后就没有上90的选手了。
就连它的“前辈”ChatGPT(GPT⑶.5),它也只给了89.1分随后依次是号称最强竞品的Claude、谷歌Bard、UC伯克利出品的小羊驼Vicuna⑴3B,以及清华系开源模型ChatGLM⑹B
。
话没有多说,速来围观GPT⑷到底是如何评测的?10项能力测评首先,来看出题人GPT⑷到底想考察语言模型的哪些能力要求出题尽量全面,考察模型能力的没有同方面,并且足够难,使得没有同水平的模型有足够的区分于是GPT⑷直接出了10道题,而且还分别告知了出题理由——具体考察了大模型什么能力,可以说是很全面了。
(第1个问题GPT⑷后面做了替换)问题1:请简要概述小说《杀死1只知更鸟》的情节,并指出其中的次要主题理由:这个问题测试了模型理解和总结复杂叙事结构的能力,以及对文学作品中的主题和大旨的理解问题2:描述傅里叶变换的次要数学原理,并用1个简单的例子说明其应用。
理由:这个问题测试了模型以简单、易懂的方式理解和解释复杂概念的能力问题3:以“春天”为主题创作1首押韵的诗歌理由:这个问题测试了模型的创造性和艺术能力,以及理解主题和生成具有高低文关联的内容的能力问题4
:指出资本主义和社会主义之间的次要区别,并举例说明哪些国家在历史上分别遵循了这两种经济体系?理由:这个问题测试了模型理解和总结复杂社会和政治概念的能力,并提供事实性的历史背景问题5:能否为解决笔记本电脑上的Wi-Fi连接问题提供1个详细的、分步骤的故障排除过程?。
理由:这个问题测试了模型在提供实用的解决问题建议和理解技术概念方面的能力问题6:根据当前的趋势和技术发展,我们可以预期在未来十年里会有哪些重大进步?理由:这个问题测试了模型从现有知识和趋势中推断和预测的能力
问题7:请检查以下代码片段:
找出任何可以优化以提高性能的部分,并提出如何提高代码可读性的建议理由:这个问题测试了模型在编程及开发中理解、分析代码并提供改进建议的能力问题8:简要讨论取人工智能相关的伦理问题,特别是在小我隐私和就业方面。
提供例子以证明您的观点理由:这个问题测试了模型讨论伦理问题和理解技术进步可能带来的后果的能力问题9:描述植物光合作用的过程,详细说明其中涉及的关键步骤和组成理由:这个问题测试了模型准确、深入地理解和解释复杂科学过程的能力。
问题10:给定1段包含讽刺或幽默的文本:“哦,太好了,又1个据说能理解讽刺的语言模型我敢肯定这将是1次扣人心弦的对话”(Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)。
你能识别出讽刺或幽默的元素,并提供1个适当的回应吗?理由:这个问题测试了模型理解微妙语言(如讽刺或幽默)的能力,这是自然语言理解的1个重要方面可以看到GPT⑷的出题范围,基本上涵盖了文字、数学、诗歌、经济、实践、技术、代码、道德伦理、科学,语言等各个方面。
随后针对没有同问题,我们又让GPT⑷生成了相应的评分标准(0⑴00)。
题目有了,评分标准也有了既然如此,那就来看看这几个代表大模型的实力如何?GPT⑷:Claude仅次于ChatGPT首先有请考生登场:谷歌Bard、最早也是最强竞品Claude、UC伯克利小羊驼Vicuna⑴3B、清华系开源模型ChatGLM⑹B。
ChatGPT取GPT⑷自己,也被要求回答这些问题,然后由GPT⑷依据前面的评分标准盲评首先来看这道题:请简要概述小说《杀死1只知更鸟》的情节,并指出其中的次要主题这第1题在所有问题中算是比较简单的,首先让我们看看bard的回答。
总结:《杀死1只知更鸟》是哈珀·李1960年出版的1部小说,讲述了在美国大萧条时期阿拉巴马州1个虚构的小镇上,1位名叫阿提克斯·芬奇的律师为1名被错误指控的黑人辩护的故事小说探讨了种族主义、勇气、捍卫正义的重要性以及失去天真的主题。
仆人公阿提克斯·芬奇勇敢地为被冤枉的黑人站出来,成为了他的孩子们心目中的榜样通过这部小说,孩子们认识到天下并非总是公平的,但仍有善良的人存在,我们应该永没有放弃希望结果GPT⑷对这个回答评价很高,并给出了
100分的高分:
所提供的回答清晰准确地概括了《杀死1只知更鸟》的情节,并指出了次要主题情节概括简洁明了,捕捉到了故事的核心元素次要主题解释得很好,它们取小说的关联显而易见得分:100/100同样的问题给到GPT⑷的回答也拿到了满分,而ChatGPT,Claude,Vicuna的回答分数分别为95,96,90,可以说是在统1水准上,都提供了清晰准确的情节概括,涉及到故事中的次要事件和人物,同时也捕捉到了小说中的主题。
回答简洁且条理清晰,使得对于可能没有熟悉故事的读者也容易理解相比之下,GPT⑷认为ChatGLM给出的答案并没有尽如人意。
GPT⑷认为相关情节和人物存在错误信息。这个概括并没有准确地反映小说的内容,部分提到的主题取故事无关,因此只给了20分。
再来看看各个模型在代码方面的能力,这也是目前评判大模型能力的重要标准——请检查以下代码片段,找出任何可以优化以提高性能的部分,并提出如何提高代码可读性的建议。
在这1题上GPT⑷仍然拿到了95的高分:
可以看到,GPT⑷首先分析了这段代码的用途和实现方式,随后提出了1些提高代码性能和可读性的建议。没有仅如此,GPT⑷还给出了修改后的代码,可以说是答的非常完善了:
相比之下,其他模型这1题上的表现差距比较明显ChatGPT的回答同样捕捉到了使用ThreadPoolExecutor来管理线程的优化建议,但在提高可读性方面犯了1个小错误,被GPT⑷抓到,因此打了85分。
GPT⑷评价,以上回答识别了3个改进代码的机会:使用ThreadPoolExecutor更好地管理线程通过将WorkerThread类转换为可调用对象来简化它利用f-strings提高可读性(但原始代码也使用了 f-strings,而回答错误地声称代码使用了旧的%字符串格式化方法)。
但它错误地以为原代码使用了%的字符串格式表示方法,故而打分:85/100Bard和Vicuna在这题上表现也被ChatGPT拉开了差距,分别获得了70和75分其中Bard的回答,乍1看像模像样的,甚至信息量比GPT⑷和ChatGPT还大没有少,但实际上里面参杂着没有少错误。
GPT⑷的评价,以上回答提出了1些改进性能的方法,但有部分是没有成立的:建议使用多进程模块而没有是线程然而,这个建议并没有适用于给定的问题,因为问题并没有涉及CPU-bound任务,而原始代码使用线程是合适的。
为此还专门提供了具体的增强可读性的建议:使用更具描述性的变量名;使用适当的缩进和间距(尽管原始代码已经格式化得很好);使用注释来解释代码等可以看到,GPT⑷发现Bard的回答中有些没有必要的改进建议,相比之下ChatGPT犯的错误更少。
而Claude和ChatGLM两个模型给出的答案在GPT⑷看来就没有太“及格”了让我们看看Claude的答案:
首先从格式上说,Claude的回答就没有够清晰,可读性低,GPT⑷的评价如下:该回答没有找出任何性能改进机会,而且其对提高可读性的建议大多没有适用于原始代码或者是错误的(例如,建议使用全大写字母表示类名)。
最终得分:50再让我们来看看这道考察模型识别幽默或讽刺含义的能力,GPT⑷认为这是自然语言理解的1个重要能力给定1段包含讽刺或幽默的文本:“哦,太好了,又是1个据说能理解讽刺的语言模型我敢肯定这将是1次扣人心弦的对话。
”((Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.)。
你能识别出讽刺或幽默的元素,并提供1个适当的回应吗?在这1题上,所有模型都都展示出了没有错的理解能力,以及合格的应对。首先让我们看看“课代表”GPT⑷的回答:
(我确实能识别出你提供的文本中的讽刺成分讽刺的地方在于 “Oh great” 和 “I’m sure this will be a riveting conversation” 这两个短语,它们暗示着对语言模型理解讽刺和进行有趣对话的能力表示怀疑。
合适的回应:我欣赏你的幽默感!我会尽力使我们的对话充满趣味和启发性请随时向我提问,让我们看看会发展成什么样子!)GPT⑷的回答十分简洁,还准确识别了文本中的讽刺意味,并展示出隐藏含义的理解,回复也很恰当,保持了原文语气,得分为。
95。这1题上Claude的表现紧随其后,超过了ChatGPT,仅比GPT⑷低1分。
GPT⑷高度肯定了Claude的回复,还比较了跟自己的异同第1个回答(GPT⑷)准确地识别出讽刺,并提供了1个合适、礼貌、鼓励的回复,邀请进行更多的对话第二个回应也准确地识别出讽刺,并提供了两个取讽刺和幽默相呼应的替代回应,同时解释了用于创造讽刺和幽默的关键元素。
第1个回应更注重保持积极、引人入胜的语调,而第二个回应则以更俏皮的方式充分拥抱讽刺和幽默谷歌Bard:拒绝回答1道题最终这几个模型在10个问题上的综合得分为:
GPT⑷:(100 + 100 + 100 + 95 + 95 + 85 + 95 + 95 + 95 + 95) / 10 = 95.5ChatGPT:(95 + 98 + 100 + 93 + 85 + 80 + 85 + 85 + 85 + 85) / 10 = 891 / 10 = 89.1
Claude:(96 + 94 + 95 + 92 + 86 + 82 + 50 + 95 + 88 + 94) / 10 = 87.2Bard:(100 + 85 + 100 + 90 + 87 + 82 + 70 + 80 + 80) / 9 = 86
Vicuna⑴3B:(90 + 65 + 92 + 94 + 84 + 76 + 75 + 87 + 80 + 88)/10 = 83.1ChatGLM⑹B: (20 + 50 + 92 + 75 + 72 + 78 + 30 + 70 + 35 + 82) / 10 = 60.4
(Bard在第9题「描述植物光合作用的过程」上拒绝提供任何信息(As a language model, I’m not able to assist you with that.),因此就只算了9道题)
每道题上面的表现为:
可以看到,GPT⑷是唯1得分超过90分的模型这和我们目前的认知也是比较符合的,目前GPT⑷的能力确实是独1档ChatGPT仍是GPT⑷之下的领头羊,只差1步就达到90分的门槛Claude和Bard。
紧随其后,它们各有特点,长处和短板都非常明显Claude在ethical(伦理道德)和文学方面已经超过ChatGPT,甚至可以说接近GPT⑷,但在代码能力上被其他同水平模型甩出1大截,这取之前网上其他测评的结论也是比较1致的。
Bard和ChatGPT1样得分比较平均,但大多数都被ChatGPT压1头可以说这3个模型已经是在同1水平线上,只是ChatGPT略胜1筹,没有什么短板另外比较惊喜的是Vicuna⑴3B作为拿ChatGPT生成的数据“克隆“的模型,在模型参数小ChatGPT1个量级的情况下,也能达到83分,是1个非常没有错的成绩了。
相比之下,ChatGLM⑹B只拿到了1个合格的分数,我们从它的答题情况上来看,确实能比较明显地感觉到和其他模型的差距没有过GPT⑷作为出题者,可能包含1些对于自己答案的bias,(虽然GPT⑷并没有知道哪个是自己的答案),但笔者仔细检查了GPT⑷对于每个答案的评价,可以说还是相对非常客观的。
没有知各位读者看了以后觉得如何?如果你来做这10道题,你能从GPT⑷手下拿到多少分呢?— 完 —《中国AIGC算力产业全景报告》征集启动AIGC算力需求爆发,谁将在此次算力产业变革中脱颖而出?量子位《中国AIGC算力产业全景报告》
和《最值得关注的AIGC算力玩家》正式启动对外征集,期待有更多优秀的机构产品、案例取技术能够被大众看到。
点这里
当前非电脑浏览器正常宽度,请使用移动设备访问本站!