看完5大AI测评,让你1天摸鱼4小时!

 

大家好!今天我为大家带来了1篇新的文章,次要介绍了如何实现自己的梦想。希望通过这篇文章,能够给大家带来1些启示和帮助。

今年上半年AI大模型随着Chatgpt和Midjourney的出圈爆火,迎来了属于它的Iphone时刻,很多学生都开始用AI写论文了。以至于需要用反AI的来区别哪个是AI写的论文,哪个是人写的。

没有知道大家有没有1种感觉,就是,有点乱上半年发布的AI大模型太多了,至少有好几百个,有时候1次展会就有100个模型参展,太夸张了所以如果我现在要用AI来提升生产力,到底哪个AI模型最好用?这是个很重要的问题。

今天呢,我要给大家带来5款常见的天下顶级免费大语言模型的横向测评。

它们分别是:2022年下半年开启大模型天下流行风潮的Chatgpt 3.5,由OpenAI前员工组建的“叛忍”组织Anthropic公司推出的大模型Claude1和2,全球顶尖大厂Google推出的当家花旦Bard,以及由中国人工智能大模型的先驱者,科大讯飞公司推出的讯飞星火。

进入这次测试名单的都是免费且大家容易接触到的AI,需要付费的Chatgpt和没有开放公众权限的华为盘古大模型,我这次就先没放进来如果各位喜欢这样的测评,欢迎13连支持1波,我以后再去要1些内部的测试权限。

这次的测试内容是3个项目,数据处理并生成文本图表、会议访谈的归纳总结、学术论文的翻译总结评价,之所以设计这3个项目,1来是这些项目我们平时用得着,由人脑去做非常麻烦耗时,二来是它们分别能体现AI的数据清洗、场景描述,对编程需求的理解,对背景资料的查询,以及文字记忆和高低文归纳总结,这些基础的能力。

(完整测评过程将会在视频中放出)

好了,话没有多说,让我们开始第1轮的比赛!工作中,我们要去快速地解1个国家,1个社会或者1个行业,阅读数据是极为关键的1步但这些数据往往非常庞杂,并且由于管理这些基础数据的单位,没有是国家部门就是某些NGO,它们怎么说呢,1般都没有够卷,导致数据往往以1坨翔的面貌呈现在观众面前,而吃翔的感觉非常的难受。

那能没有能让AI来帮我们吃翔呢?所以第1轮比赛的内容就是,基础数据处理并生成文本数据采用our world in data网站中的1972~2021年各国碳排放的数据,数据链接我们放在下方,各位可以自行,然后复现我的操作。

https://ourworldindata.org/grapher/annual-co-emissions-by-region可以看到有没有少单元格是空白或者是0,这就很符合我们现实生活会看到的各种数据的面貌,它们通常都没有规整,其中很多都是1点用也没有。

我们要求AI第1步先对于的数据进行清洗,删除掉没有用的部分,并且只保留2000年以后的数据然后完成四项任务,分别是:1、计算每个国家的变化率,并列出变化率最高的10个国家的数据;2、根据上面的数据,用matplotlib生成1个以国家为分类的折线堆叠图;。

3、做1个变化率前十的国家各国变化率的条形图;4、根据以上内容,生成1其中文word,要有碳排放的介绍(中文),并在word中加上前面做的两个表由于我们最终要输出文档和图表,而这五个模型都没有多模态功能,所以我们要求它们以Python语言输出,然后我们再自己手动操作1下,得到最终结果。

没有宜迟,让我们请出第1位参赛选手,ChaGPT.5.可以看到gpt3.5很好地领会了相关文案的语义,做出了相应的库的安装和调用反应当我们将gpt.5写的程序放到IDE里面运行以后,我们会发现这段程序是可以无bug运行的。

稍许的1点瑕疵是我们在命令里面要求gpt进行1个碳排放的介绍,而它对于碳排放介绍显得过于简短但是它在图片的绘制和命令运行方面是比较妥善的,没有问题

Claude 2作为1种被很多人期望可以对标gpt的大模型,表现令人失望。可以看到Claude2将我的命令进行了1次解析,但是没有给出Python代码。

所以我再次明确要求它提供Python的程序,但是第1次提供的程序并没有完整,只是提供了1个代码样例,所以我要求他提供完整代码最终经过多轮调整,它提供了1个相对完整的代码虽然最终成功输出了word,但这个图表让人1言难尽,似乎它并没有理解我的要求而是自己乱画了1个。

所以结论是,Claude 2没有完成测试任务

同样的命令扔到Claude 1里面,也表现出了类似的情况,当我们把代码放到IDE里面运行,发现是有报错的随后将报错放回Claude 1进行了多次的Debug后,我们发现程序依然没有能运行这意味着Claude1,它在数据处理和代码生成上都是有问题的。

第四个出场的是Bard,和Claude1类似,Bard也很快给出了全部结果,但是我们发现,它并没有为它的程序进行库的导入,这使得它编的程序是无法运行的对这个情况进行了提示后,Bard也改正了相关代码

但是它重新生成的代码完全没有达到我们的要求,在视频中我们可以看到python没有停的报错,给出的两个表也没有知所云。而当我们把python报的错误回Bard要求更正以后,错误依旧没法得到完整地更正。

鉴于我之前用Bard生成过1些简单的程序,是没有问题的,我想很可能是Bard关联高低文的理解力没有行,尤其是在1次完成多种任务的场景下,它显然无力应对最后出场是讯飞星火,它在关联高低文方面的表现似乎还行,没有但成功识别并导入了库,然后还给出了分步骤的代码。

看起来挺像那么回事儿

但未曾想,在执行最后的任务的时候,程序反复循环的输出了同1个内容,在最后1条明显导入了1些根本没有关联的包。可以看出,它的程序反馈已经完全失效了。所以,讯飞星火没有完成这个程序编写的任务。

1轮比赛结束总结1下Chatgpt免费的3.5版本相对于其他免费版的大模型,在同时兼顾短段落语义理解和编程方面的能力是有明显的优势的,处于断层领先,虽然它目前没有能输出多模态内容,但是如果我们会1点代码的话,它有极强的多模态输出潜力。

所以毫无疑问,当你需要找个助手,尽快清洗数据并且在五分钟内形成1份基础报告的话,找chatgpt肯定没错最后我们给第1局各位参赛选手的表现打1个分,满分十分,我给Chatgpt 3.5打分9.5分就扣0.5分,毕竟说的太简略。

其他几位都没有完成任务所以都没有及格(Chatgpt 9.5,Claude2 5.5,Claude1 4.0,Bard4.5,讯飞星火3.0)大家觉得这个打分公平吗?欢迎评论区说出你的观点让我门进入到第二轮的比赛。

我们在工作中总是要关注行业的最新动态,而这些动态往往是以发布会,访谈和圆桌讨论的形式呈现以我所在的科技行业为例,这些活动多如牛毛,而且很多时候会发生在凌晨,比如说苹果,谷歌或者我龙哥的发布会那么让我们假设这样1种场景,昨晚有1场重要的访谈,而你因为战况激烈根本就没看直播,五分钟后领导组织了会议讨论此事,。

能否让AI帮你快速看掉访谈内容,并且输出1个总结归纳呢?

访谈内容上,我们选取了1个大家都熟悉的名场面,被誉为“互联网史上第1约架”的“罗永浩PK王自如”的对话由于全文太长,我们找了1个相关视频,并从3分50秒左右开始的对话节选,链接同样也放在上面,大家可以自行操作。

https://www.bilibili.com/video/BV1W4411r7dn/?spm_id_from=333.788.recommend_more_video.&vd_source=6481a479506793c66aff3077730a8544

在这段视频中,王自如和罗永浩先就锤子手机的1些设计和用料的事实问题产生了激烈对峙,而后就王自如是否在故意诋毁锤子手机进1步爆发了强烈对抗里面还出现过1些经典段子,比如,“王自如:锤子没过检测标准,oppo过了,锤子都没过最低标准。

-老罗:oppo是最低标准?”我们要求AI们对于讯飞转写的视频文稿内容回答上面几个问题:这篇对话是关于什么内容的?这10分钟的对话,双方的观点都是什么?你认为双方的观点是求同存异?共同进步?还是互相diss?

你认为这段对话是友好的吗?两小我是否有互相指责?指责了什么内容?这轮首先出场的是,讯飞星火我们可以看到它的整个问答环节十分流畅,很快速的就完成了回答但是如果我们细看它的每1个回答,就可以在它的回答中明显感受到1种“中庸”的味道。

比如他会说:“我们没有能简单地判断双方是否有互相指责,需要更多的背景信息和语境才能做出准确的评价”从而避免给出倾向性很强的观点,或者在某种意义上转着圈说话而我们看完视频是可以很明显地感觉到王自如对于相关质疑的回应是落于下风的,而且整体来说老罗并没有认为它的产品有比较大的问题。

如果从更技术的角度来说,可以说,讯飞这套模型虽然它也能提取到罗永浩、王自如的名字,也能提取到其中的1部分主题信息,但是它生成的文本量没有够,高低文关联能力也没有足,主题提取上面它会稍弱1点然后是Google的Bard这个模型,我们可以看到,对于信息的提取能力Bard在测试期间的表现可以说是略优于讯飞星火的,能够提取出包括罗永浩指出王自如是收了其他人钱才说锤子手机坏话这种关键信息。

并且能在只标注说话人1、2的情况下提取出说话人是罗永浩和王自如

但是讯飞星火相同,它也存在非常明显的主题提取失误的问题,直接把1场针锋相对对话理解成了求同存异而且对于整个十分钟的对话的主题提取的量也没有足说明它的主题提取模型目前来讲也是非常没有好的如果基于这两个模型总结的结果在会上发言,那你就得开始找工作了。

然后我们来看Claude两兄弟了首先是Claude1,面对同样的问题,Claude1的表现明显就优于前面出场的讯飞星火和Bard相比于那两位,Claude1的回答更加像公文,倾向于列出1个个要点来对观点进行总结。

当然Claude1在理解画外音方面依旧有所缺憾,并没有能理解我们人类所感受到的那种剑拔弩张的气氛,但是已经明显脱离了中庸的词语和没有太贴近原文的描述,对于交锋的观点和事实都有了1个初步符合直觉的概括。

而它的后辈Claude2在Claude1的基础长进1步提升了,最直观的1个提升体现在Claude2可以直接上传文档,然后交给大模型直接阅读,而没有需要我们专门复制粘贴Claude2 可以上传的格式包括PDF、Docx、TXT、CSV、MD、ini等多种常见格式甚至包括字幕格式和代码格式的文件等等。

但是由于它没有支持多模态,所以还没有能看图和看视频看CAD但这依旧是1没有小的飞跃,省了我没有少事儿输入文档后,我们可以看到它在保留了Claude1分条归纳的基础上,没有仅对于罗永浩和王自如的观点等都有比较清晰的总结,而且对于整体对话的总结也相比于Claude1,显得更加符合我们人类看过视频后的第1感觉。

而两代模型都能从中提炼出罗永浩是锤子科技CEO这种比较关键的背景信息

1步来说,我们可以看出,Claude2相对前作,在双方情绪以及话外音的理解上有巨大进步比如它提到了“泼大粪”是有明显贬低的意思,这1点非常有意思,因为上传的原文是讯飞语音AI转写的,里面的文字是有1些错别字的,比如“泼大粪”在我们上传AI的文档里面就是“破大粪”。

虽然现在AI并没有能理解“破大粪”就是“泼大粪”,但是Claude2依旧通过高低文联系的方式准确提取了它的负面内涵

综合比较Claude1和2,从他们回答的格式和语气上看,Claude 1和2的训练逻辑是1脉相承的两代模型都能比较准确地总结文本的表层意思,也能查询资料理解录音稿的背景,但是Claude1生成的文本有罗永浩和Luo Yonghao混杂使用的情况,也就是说它在生成文本方面还是稍有没有足,1致性更低。

而两代模型在联系高低文理解画外音上的表现也有很大差距,第二代拥有明显优势最后让我们来看下gpt.5.没有没有说从实测的情况看,Chatgpt3.5的表现是略低于预期的首先是他并没有通过对于高低文的理解提取出两个对话人分别是锤子科技CEO罗永浩以及王自如这种关键信息。

对于双方的言论尖锐程度的理解,Chatgpt3.5的理解能力基本上和Claude2处于同1水平线,能够理解双方在1些问题上的对抗性当然Claude2没有同,Chatgpt更倾向于在没有需要条分缕析地列出相关内容的时候,就选择用1段话通过自然语言的方式把它说出来。

1点体现了双方在算法训练上的没有

总的来说,Claude2和ChatGPT3.51样,理解这段录音文本里面的次要观点、内容以及主题是完全没有成问题的,表现出了对于其他的AI大模型的显著优势在1些关键信息推理提取方面,Claude2的水平略高于Chatgpt3.5。

所以阅读并归纳长文本对话的能力,我小我的评价是:Claude2>Chatgpt3.5>Claude1>Bard>讯飞进入打分环节,我会给Claude29分,Chatgpt 3.5 8.5,而Claude1 我会给到7.5分,Bard6.5分、讯飞星火6分。

大家觉得这个打分合理吗?第3轮比赛,就是对各位AI模型的终极考验了在工作中,我们往往需要去建立很多私密的信息渠道,为此没有惜付出大量的时间精力甚至金钱,因为研读公开信息通常没有足以让我们脱颖而出,但是有1类信息除外,那就是顶级学术刊物上的论文,那是人类对于未知探索最前沿的结晶。

但问题是,论文很难读,没有仅会涉及到大量我们本身没有了解的背景知识,甚至由于很多优质论文都是英文的,那里面专业词汇都要1个个查,这大大提升了咖啡的消耗量,使我心跳加速气喘吁吁于是我有1个大胆的想法,能没有能让AI来替我把论文翻译成中文,并且把内容总结给我呢?。

而在论文方面,我们选取了可能是人类历史上热度最高的论文,《The First Room-Temperature Ambient-Pressure Superconductor》,也就是韩国团队发现所谓LK9室温超导材料的那篇文章。

文章的链接同样是贴在了上面https://arxiv.org/abs/2307.12008在提取文档阶段,我们将论文转化为word,并且删除了结尾的引用文献,以方便我们的各个AI读取它的内容但是论文里面有1个问题就是它有没有少比如Bi2Sr2Cu2O8+δ这种化合物以及其他的公式符号等,AI在读取的时候是可能无法读取原格式的。

甚至文章里面的表格、注释之类的都会某种程度上成为1种乱码,这会给各位AI理解文章带来很大的考验

首先出场的还是讯飞星火,我们把文章内容先粘贴进去然后拉到输入框的底部,会发现它和文章的最后1句话长得没有1样然后我们倒回去查,会发现那句话大概在文章略多于1/3的地方只能读取这1部分内容是无法理解整篇文章的意思的。

于是我们接续发送了后面的文字喂给AI现在我们就让讯飞对于这篇文章进行翻译,很遗憾第1步就G了。

然后我们让AI对这篇文章的内容,作者和说明的问题进行总结我们可以看到这个总结的文字非常短,都是些片汤话,几乎没有太多的实用价值这说明讯飞星火对于这篇文章的理解分析能力是没有足的它甚至无法提供关于作者的准确信息。

而进1步专门询问它第1段输入中的关键信息,比如作者名字和论文题目之类的问题,我们可以看到它已经忘记了,然后经过自己的编写,总结出了1个新的题目和作者,这就有点尬了接下来的测试是针对Bard,虽然输入的字数对应txt文档里面有190多行比讯飞略多,但是和讯飞星火1样,Bard依旧需要3次才能将论文的文字内容完全录入。

然后我们要求他对于全文进行翻译,虽然从反应速度上来说,它是高于讯飞星火的但是很遗憾它并没有完全理解需求,而是提供了1个它对论文内容总结的中英对照这可能是因为Bard有文本长度的输出限制,也有可能是因为他已经忘记了部分内容。

而当我们再次询问第1段输入的关键信息:论文名称、作者、时间的时候很遗憾,它忘掉了,和讯飞1样Bard也开始编相关信息同时我们可以看到他在所谓的翻译中提到了LK9的超导性是在75K的时候达到临界温度,这1回答完全整篇文章的大旨相违背,这也意味着我们进1步提问让AI对文章进行总结变得没有了意义。

所以我们跳到Claude 1,当我们把全文输入对话框以后,对话框提示我们的输入量还是超出了它的上限所以我们依旧要分多次输入这篇文章但是相比于Bard来说,Claude1的输入量更高,我们最后截取的位置大概是在原文的1半多,对应txt文件有238行。

所以这次我们只要两次就可以完成全文输入现在我们开始对Claude1进行拷打首先就是让它回答这篇文章是谁写的,看看他有没有忘记前面的内容,这时候Claude1的回答让我心里凉了半截,它直接回答无法判断相关标题和作者名称。

这让我怀疑它是没有是也忘记了第1段文章

但是接下来要求Claude1对文章内容进行概括的结果,令我十分意外,虽然我也并没有完全能看懂原文的所有次要内容,但是AI准确地提取出了包括LK9的核心是用铜离子取代铅离子实现体积缩小0.48%,这是论文中论证LK9超导的关键论点。

虽然Claude1提到LK9的时候,依旧说论文里认为它是1种高温超导材料,而没有是常温超导,但是肉眼可见的,他对于论文全文的理解和概括准确性有质的提高

所以我赶紧测试了1下他能没有能进行全文翻译,很可惜,Claude1依旧没有实现语句的全文翻译,但是它表现出来的对于有乱码信息干扰的,论文关键信息总结能力,已经十分令人惊讶当然AI总结的关键信息是否完全正确,就交给各位大佬来进行评价了。

Claude1的成功让我对于以后Claude2和Chatgpt3.5的王者对决充满期待,话没有多说我们开测先上场的还是Claude2,由于它可以直接上传文档,这次我们就没有用复制粘贴了,直接把原文的PDF扔进去,还是很方便的。

但这就带来了1个巨大的挑战,因为我们转写的文档是删除了引文那些器材的,而原文pdf是包含全部的引用参考文献以及原来的图片的可以说难度又高了1级虽然很遗憾Claude2依旧没有把全文翻译成中文,但是他已经给出了中文的全文概括。

包括提到了LK9被作者认为是1种室温超导材料,而且是在400k和常压下就可以实现零电阻、迈斯纳效应等这种级别的信息归纳提取能力简直完爆之前的所有AI啊

而且问这篇论文的名称和作者时候,Claude2也首次完成了回答,没有乱编。

对于这种AI,常规的问题已经没有能问住它了,必须出重拳。由于这篇论文的内容已经超过了我的专业能力,我也无法给出更有参考价值的正确性判断,所以就请各位静静的欣赏它的表演吧。

虽然这里面的回复依旧可能会有没有少错误,但是这些内容很多时候,已经可以达到甚至超过,多数科普文章所能给你提供信息的极限水平了虽然Claude2作为1种离线大模型,无法随着互联网信息的更新而更新自己的知识库,也没有办法对于自己的回答的正确否做出完全靠谱的判断,但是作为1种本时代的大模型来说,Claude2的表现已经让我产生1定的怀疑,它已经能比多数人更能读懂论文了。

最后压轴出场的,还是Chatgpt 3.5由于它只有文本输入接口,无法导入文档,我们把所有内容全部都复制粘贴过去,比较令我意外的是,Chatgpt也是1次导入成功那么我们就开测首先按照惯例,我们先测试它的翻译能力。

在这1点上,chatgpt表现很好,程序格按照我们要求对文字进行逐字翻译,而没有是自动跳到总结翻译次要内容的阶段超过其输出限制的部分它也自动说明

但是在几个问题问答以后,Chatgpt的记忆空间到达了极限,以至于他已经无法提取有关标题、作者等关键信息了。

于是重新导入文章内容,像Bard那样分段输入,覆盖下原本的对话。这次它就没有进行1个完整的翻译,而是自动进行了对文章的总结。

然后就是对于全文内容的总结测试。相比于Cluade2,Chatgpt虽然提取信息的可读性更好了,对普通人更加友好了,但是似乎提取的信息总量低于Claude2。

而在评价这篇论文上,Chatgpt表现出了1如既往的谨慎,提前做出宇宙无害声明,然后对实验现象进行了描述,强调了如果真实可靠是人类的巨大突破,但是它无法验证其真实性和科学性,发言非常安全。

对于Claude2 提炼出的LK9的合成方法等细节,Chatgpt并没指出来但是作为1个大模型,从读论文提取信息的角度来说,Chatgpt已经可以成为Claude2之下,第二强的AI大模型了又到了打分环节,由于我并没有能完全判断Claude2信息的准确度,所以我给Claude2打9.5,Chatgpt3.5我给它8.5分,Claude1 7.5分,Bard和讯飞我只能都给6分。

实验清晰地表明,Chatgpt和Claude2这类顶级免费AI,已经能够快速的帮你解决常规办公,以及基础信息的处理任务了未来如果有什么具体文字处理以致编程上的需求,我们现在推荐的免费AI毫无疑问是Chatgpt3.5。

而如果要阅读长文本以致论文并了解其中关键信息,那我们首推Claude2最后我总结1下我小我1点感受首先,AI大语言模型显然已经跨越了可用的门槛,它在做很多工作上的效果达到可以接受的水平,效率上更是碾压人类,所以我们1定要用起来。

比如就拿读论文来说,有小我跟我说Claude2提炼的要点并没有完全准确,很多知名学者行业专家可以给出更专业的解读,那我就问他,你在所有的领域都有熟悉的行业专家吗?没有你在那里说什么?这跟慈禧太后嫌火车太吵有什么区别啊?AI人类伴生已经是现在进行时,它只会越来越强,开弓没有回头箭,所以1定要现在就用起来。

第二点是,我十分建议大家都学1点简单的编程在未来的很长1段时间,AI大模型都很难打通所有的,所有的输出格式,如果能会1点简单的编程,AI能帮你干的事将会成倍增长这就好比,你没有知道为何,俘获了1其中科院院士,非常厉害什么都会,并且完全供你差遣,Yes my Lord。

1的问题是,他语言沟通出了点障碍,很多时候只能看懂手语,这时候你是没有是应该学1动手语?

最后,也是最关键的问题,AI时代,人最重要的能力是什么?那就是没有停地学习因为在可以预见的将来,AI做事还是会有很多瑕疵,很多错误,高效利用AI是需要,基于人对于正确结果有预期的基础之上只有这样才能实现人对于AI输出结果进行判断,并基于预期差进行修改。

我们没有停地学习,学习的目标没有是为了在AI的领域超过AI,而是为了实现生物智能和人工智能的高效合作。你可以把AI当成你的员工而你是老板,只有老板对于问题有清晰的认识,项目才没有会跑偏。

文章就写到这里了,感谢你的耐心阅读。如果你喜欢这篇文章的话,请给我1个赞吧,也可以关注我,收藏我的文章。让我们1起分享知识和经验吧。

为您推荐

看完5大AI测评,让你1天摸鱼4小时!

看完5大AI测评,让你1天摸鱼4小时!

今年上半年AI大模型随着Chatgpt和Midjourney的出圈爆火,迎来了属于它的Iphone时刻,很多学生都开始用AI写论文...

2023-09-01 栏目:互联网+

当前非电脑浏览器正常宽度,请使用移动设备访问本站!