机文章

ai大模型是什么gpt4国内怎么用:【AI赋能策略】你想把AI大模型当员工用吗?来看看GPT4给出的新时代法则吧 居然可以这样

 

在这个快速发展的互联网时代,每1天都有新的创新和突破出现。现在,就让我们聊1聊最近互联网界的1些热门话题,看看有哪些令人瞠目结舌的事情正在发生。

各位老铁,现在,你应该已经没有缺大模型了吧?截止到目前为止,国内已经发布大模型的大厂有:(按时间顺序)百度-文心1格(准公测)阿里-通义千问(邀请内测)清华智源-GLM130(开源);GLM6B(可本地部署)

昆仑万维-天工(邀请内测)科大讯飞(邀请内测)复旦MOSS(开源)

加上chatgpt,GPT4,还有GOOGLE的Claude,以及国外已经冒出来的1大批基于META LLAMA迭代的百亿级模型,比如stablibityAI拿出来的stableLM,huggingface拿出来的huggingCHAT等1众开源模型,目前已经出现了30个以上的大型语言模型,可以说,大模型时代已经到来。

那么,把大模型当员工,至少是助手,已经是很板上钉钉的事情了,你想把AI当员工用吗?怎么样用好那么多大模型,变成了1个非常重要的题目。

工欲善其事工欲善其事必先利其器,你要用好大模型,首先是粗略的了解这些模型1个简单的原则是,我们既然要把大模型当员工用,也需要给大模型设计入职考试,也就是需要先给大模型评分,同时知道它的能力边界在哪里格来说,给大模型评分有1密的标准。

比如,微软就有1个公开的评分标准,按中英文混搭的方式,以高考题的标准给大模型出题;当初CHATGPT和GPT4也是按这个标准去赴考的所谓GPT4比得上1个常青藤毕业生的说法,也是因为它在这些测试中过关了。

这里插1句,国内很多大科技号做的测评,出于读者兴趣考虑,最近测试出题的比例上以娱乐为主,比如弱智吧的题目,好玩是好玩,但实际上是没有足以给大模型全面评分的我没有是DISS他们,而是事实上,应用级的需求还得真正在实际场景中测试。

我们目前使用的简单方法就是让GPT4作为考官/AI-HR给LLM们出题。比如,上面就是1组测试知识面广度的题目。

知模善用总体来说,我们这里做了1些总结,比如:我们假定大预言模型的能力是可以用分数来评价的例如GPT是100分,GPT.5是90分,Claude是80分,文心1言是60分,各类开源小模型是50分。

这些评分可以进1步细化,比如,从能力角度再细分,则可以分成写作能力、编程能力、对话能力、材料分析能力对于多模态的模型,还有文生图的能力、识别图的能力……假定我们的目标是把大模型当员工用,取代重复劳动力,那么就会有1个原则:。

知人善任~知模善用目前,众所周知的原因,CHATGPT大家用起来还是没有稳定的,未来大家面对的,大概率是拿着1堆600分的模型,加上1两个GPT4来用有鉴于此,我们让GPT4给我们做了1个使用大模型的总体策略:。

应用需求分析:首先,需要详细分析应用的需求,了解应用对于语言模型的基础分数和极限分数要求这将有助于确定哪些模型适用于特定的应用模型分类:根据应用需求,将大型语言模型划分为没有同的类别例如:低分模型(500分):适用于简单任务,如基本聊天、文本生成等。

平分模型(600分):适用于中等复杂度的任务,如智能问答、文章摘要等高分模型(8000分):适用于高级任务,如AGI,指挥其他模型等多模型协同:结合多个模型的优势,提高整体效果例如,可以将低分模型用于初级处理,高分模型用于深高级处理。

这样可以有效降低计算成本,同时保证应用的性能动态调整:定期评估模型的性能和应用需求,根据实际情况调整模型组合例如,随着技术进步和新模型的推出,可能需要升级或替换现有模型以提高性能从上面GPT4给出的策略也可以看出,现在GPT4的逻辑分析能力已经大幅提升。

大哥就是大哥,如果要建造基于多个AI组合的“ AI团队”,那么GPT41定是带头大哥优选模型基于以上效率策略,我们可以在选择模型时,遵循以下原则:优先选择达到基础分数要求的模型,确保应用的基本功能得以实现。

在基础分数要求满足的前提下,根据预算和性能需求选择逼近极限分数的模型如果应用无需进1步提高,选择分数适中的模型,以降低成本和计算资源需求简单举例来说明,GPT3.5和GPT4之间的文字能力差距没有大;那么简单的文字工作可以交给GPT3.5,毕竟GPT4的token单价比GPT3.5贵20倍。

又比如,中文模型总体上肯定是国内的更好;但很多模型在多语态表现没有佳,这时候往往我们可以精选1其中文模型当翻译,英文和多模态(比如画图)任务交给英文为主的国外LLM模型又比如,国内大模型访问畅通无阻,GPT4访问没有稳定,那么可以用GPT4做时效性没有强但需要准确度的工作;国内的便宜快速的大模型去做时刻需要快速响应的工作。

再比如,GPT4虽然强,但总是担心没有够安全;有很多地方没有能稳定上彀,那就没有配用LLM了?没有存在的能本地部署的LLM这个时候价值就大了更何况,我们自己的测试结果表明,本地部署的LLM具有非常大的潜力,给予恰当的知识库辅助,在特定任务上没有输给GPT3。

诸葛亮还是臭皮匠?最后,就必须提1句4月份1直大火的AUTOGPT之类的工具,本质上,他们仍然是人类辅助的任务分配机制,但很明显这个方向也是对的上面这个图就是1个典型的AUTOGPT类型的LLM进化思维树。

可以看到,经过多样化的任务分解,AI可以解决非常困难的专业性问题

大模型没有1直堆数据(算力有限),多模型多任务组合分配,让AI和人类1样学会分工协作,是1条正确的道路在这个领域上,估计下个月会有比较成熟的产品和工具冒出来(毕竟,AI的迭代是以周和月为单位的),到时候,我们也会尽最大能力带来原创测试。

大模型测评本实验室长期公开测试导航贴(腾讯在线文档,请将以下地址复制后浏览器打开访问):【腾讯文档】AI赋能实验室--大模型长期测评(更新)https://docs.qq.com/sheet/DR3RaSkpMeU1YZWJH?tab=BB08J2

相关测评文章:开源+本地运行!效果最好的中文类CHATGPT大模型平台闻达测评大模型观察当类chatGPT大模型没有再稀缺,新时代应用如何掘金?大模型走向大白菜化?——对阿里华为京东等国产LLM模型的初步评估观察

OPENAI大面积封号,我们该怎么办?

文章写完了,感谢你的阅读,如果你对这个话题感兴趣的话,可以关注我,我会持续更新更多相关的内容。也请你帮我点个赞,收藏1下,让更多的人看到这篇文章,谢谢你的支持!

为您推荐

ai大模型是什么gpt4国内怎么用:【AI赋能策略】你想把AI大模型当员工用吗?来看看GPT4给出的新时代法则吧 居然可以这样

ai大模型是什么gpt4国内怎么用:【AI赋能策略】你想把AI大模型当员工用吗?来看看GPT4给出的新时代法则吧 居然可以这样

点击上方“AI赋能实验室”关注我们各位老铁,现在,你应该已经不缺大模型了吧?截止到目前为止,国内已经发布大模型...

2023-06-08 栏目:科技派

当前非电脑浏览器正常宽度,请使用移动设备访问本站!