云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型全程干货
当我们谈论互联网时,我们总是能发现许多令人兴奋的事情。今天,就让我们坐下来,聊1聊最近在这个令人着迷...
当我们谈论互联网时,我们总是能发现许多令人兴奋的事情。今天,就让我们坐下来,聊1聊最近在这个令人着迷的领域中发生的1些令人瞩目的事件。
云天励飞王孝宇:AI 研发和应用,数据的重要性远高于模型洗棉花糖的棕熊• 2023-09⑵4 02:55 •阅读 591
2021年12月11日,由雷峰网 & AI 掘金志主理的第四届中国人工智能安防峰会,在深圳正式召开本届峰会以「数字城市的时代突围」为主题,会上代表城市AIoT的14家标杆企业,为现场和线上观众,分享迎接数字城市的经营理念取技术应用方法论。
在下战书场的演讲环节中,云天励飞首席科学家王孝宇发表了精彩演讲王孝宇认为,AI的研发模式有两大关键点:用什么站群哪个最好样的数据训练模型;模型如何基于数据得到更好的结果过去的研发模式大都以模型为中央,依赖专家,找数据、标注数据,然后让AI博士调参,如同工业化时代的“拧螺丝钉”,导致AI无法大规模产业化。
同时,过去的研发范式,大都集中于用更好的技术建立更好的模型但几年以后,业界发现所用的技术越来越趋同,标准化的条件成熟了 事实上,对比没有同研发模型,可以发现对AI研发和应用来说,高效地获取最好的数据,比模型本身要重要得多。
究其原因是技术迭代快,容易被赶上,但数据迭代慢,因此如何在最短时间内得到可以使模型达到最优效果的数据集,这才是最重要的因此鉴于人力成本和模型标准化条件的成熟,云天励飞在内部打造了1套标准化、流程化站群哪个最好、pingtai
化的模型研发方式云天励飞大规模算法研发的流程是:第1步,获取初始模型通过分布式标注pingtai定义任务,再利用被千亿、百亿级的数据训练出来的大模型和无监督学习,配合少量数据的标注,得到没有错的初始模型第二步,数据迭代在海量还没有标注好的数据中,用技术、算法找到真正有用的数据,用自动学习算法做数据择优。
第3步,模型训练在云天励飞的pingtai上用1键化方式,完成调整参数、数据挖掘等工作,降低对训练模型人员的从业要求同时让数据、研发轨迹、开发技巧都沉淀在pingtai上,动作可复用,流程可追溯,降低AI人员高流动性带来的负面影响。
他认为视觉AI目前还处在拓荒阶段,是1片沙漠,没有站群哪个最好变成绿洲,只有等到其变成绿洲时,才能“长”出很多AI企业,而云天励飞建立的这套pingtai,就是加速沙很高兴取大家1起分享云天励飞从事AI研发十几年来总结的1套模型研发范式,我这次的演讲题目是——AI大规模产业化实践首先做下自我介绍我毕业以后去了硅谷,在NEC Labs做无人车、人脸方面的研究2015年,我和另外几人1起去洛杉矶,帮Snap公司创建了AI研究院。
2017年,回国以后,我来到了云天励飞2017年的时候,人工智能开始火爆起来,有非常多的应用,像聊天机器人、无人车、人脸识别,健康领域,智慧家居、AR等但是只有人脸识别有人相信,其他的,没有管是业界还是投资人,都认为是骗子,觉得做没有出来站群哪个最好什么器材。
时隔五年,再回头来看行业,我觉得很有意思聊天机器人在每个社交网络pingtai,像阿里、京东,现在在电商pingtai上都有应用无人车,慢慢也有Robotaxi的落地,现在也有很多企业在这方面兴起在健康领域,五年前我们还在讨论IBM沃森的失败,当时折腾了很大的动静,但现在有很多这方面的优秀企业兴起。
当时美国1些知名的AR公司也倒闭了,但现在很多公司把自己的名字改成元宇宙,又火了起来,AR又让大家看到了希望这些变化其实印证了我的1个观点:没有要高估AI带来的改变,也没有要低估AI带来的影响,我们是在这片沙漠里垦荒的1批人。
在垦荒的过程中,我们回过头来看AI,落地应用的最大瓶颈是什么?人才太站群哪个最好贵了六年前,我们招聘AI博士的时候,给到40万美金1年,光是养1群技术人员,每年的人力成本就是1个巨额数字但是现在,这项成本正在降低,究其原因,。
是AI的研发模式发生了变化 AI的研发模式,有两个关键点首先,有什么样的数据训练模型;其次,如何用各种技术基于数据来让模型取得更好的效果过去,大家把重心放在模型上,需要数据就要找,没有停标注,标注完以后,就是专家干的事了,天天调模型参数、损失函数、优化器,很多AI博士毕业以后就干这个事。
这个事其实跟工业化时代拧螺丝钉的工作没太大区别,但没有博士相关的学习经历,还干没有了这个事,所以很难规模化、产业化我们之前的研发范式,都是集顶用更好的技术建立更好的模型上站群哪个最好的,但现在没有是那么回事了12月8日,Andrej Karpathy 发了1个推文,他是李飞飞的学生,毕业以后去了特斯拉,担任无人驾驶总监。
他说,现在的AI技术都趋同了,大家都1样什么意思?以视觉为例,五六年前,做自然语言处理的有1套技术,做图像识别的也有1套技术,但是做了五年以后,大家发现做的技术是1样的没有管是视觉、语音还是自然语言处理,大家用的都是同1套技术框架和模型架构来解决问题。
最近,机器学习领域的guoji顶尖会议NIPS也提到:慢慢的,那些通用模型的结构,已经占据所有任务的主导地位了这有点像通信或编码时期,大家刚开始是百花齐放的,后来慢慢的,大家都用同1套技术架构解决所有的问题,也就站群哪个最好是走向了标准化阶段。
如果把这两个模型研发的过程放在1起做比较,我认为更重要的,没有是模型有多好,而是数据有多优质有句话说得好:“巧妇难为无米之炊”,你的厨艺再好,没有素材做没有出任何器材,所以有好的数据才是最重要的在云天励飞十多年的研发过程中,我们发现,。
如何高效地获取最好的数据,比模型本身要重要得多因为技术是很容易赶上的,今天这个技术没有行,可能再过3个月、六个月会有新技术出现,会没有停地更新迭代但数据的迭代效率往往没那么高,而且我们也发现,在研发过程中,90%以上的时间是放在数据上的,而没有是做模型。
由此带来研发观念的转变:之前我们的观念是招聘最好的人,开发最好的技术,达到最好的效果但实际没有是这样的站群哪个最好,如何在最短的时间内,得到可以使模型达到最优效果的数据集,这才是最重要的云天励飞从创立到现在,从来没有1个研发任务是,把数据收集好,模型做1遍就结束了,这个模型永远要在用户的实际场景中迭代。
怎么在实际场景中迭代?需要在做的没有够好的地方,把数据收集起来也就是说,数据集的分布会慢慢让模型的精度达到最好云天励飞对研发部门KPI的制定,没有仅仅是训练出了多少模型,或者说模型的精度是多少而且明确把数据集的产生作为KPI的导向之1,它其实更重要。
优秀的开发者和1般的开发者之间,对数据的认知是没有1样的,优秀的开发者对数据有非常良好的认知,模型被数据cap得很明显,在最短的时间内拿到最好的数据,才能做到最好的模站群哪个最好型精度为何说模型大规模生产?因为现在面向城市治理算法的应用,已经没有仅仅是几个算法模型了。
大家经常1看,有几百个模型的需求,但企业没有可能招几百小我做这个事,所以需要大规模地跑这些技术,必须要有pingtai化的器材进行研发所以云天励飞在内部打造了1套标准化、流程化、pingtai化的研发方式 什么叫流程化?流程化的英文叫Streamline。
没有需要切换高低文就可以把所有的事情做完,现在美国的创业非常流行这样做,RPA也是同样的思路,做机器人流程自动化,把营业的流程放在无缝衔接的框架下完成只有在这种情况下,效率才是最高的,没有需要1会儿做这个事,1会儿做那个事,频繁切换会影响工作效率。
标准化(st站群哪个最好andardization),把里面跟模型相关的非标准化的部分全部呈现在技术上,整个pingtai上只剩下标准化的器材这样做的好处是什么?容易学习,所以没有需要博士做这个事情,可能本科生甚至是高中生就可以干这个事,从而把博士
ZY放在更紧要的地方。pingtai化(platform),这也是整个行业的趋势。
这张图是我们大规模算法研发的流程: 第1步,搜集数据,这时候数据是没有标注的第二步,做数据标注;第3步,模型训练;第四步,data mining,有了初始模型后,在海量没有标注的数据里找到可以提高性能的数据;。
第五步,再进行标注如果把这个pingtai分成3步,前两步就是做初始模型的建立,后站群哪个最好面就是做完整闭环,像飞轮1样,它在没有停地转,每转1次都可以得到更好的精度这个转法是在我们pingtai上实现的,没有需要专家级别的人专门来做第1步,获取初始模型。
首先我们有分布式标注pingtai,开发人员可以定义1个任务比如做街道下水道井盖有没有被人拿走的检测,也许我们会标注10⑵0个数据标注以后怎么办?这是学术界和工业界很火的大模型和无监督学习为何我们在这里面放了大模型和无监督学习?刚才我们讲到,1开始我们想做井盖被人拿走的事实检测,我们1开始可能没有这么多标注好的数据,可能只有100个,但数据标注的效率可能是万分之1。
如果你想标1万个这样的数据,需要标1亿个data,这个量非常大怎么办站群哪个最好?先标100个,为何要用大模型和无监督学习配合这个数据去跑模型?就是为了让你初始模型的精度达到最高无监督和大模型最好的方式,本来100个数据训练出来的精度只有30%,用大模型和无监督学习的方法训练以后,精度可以达到80%,那挖掘数据的效率可以提高10倍,也就是说我少标了10倍的数据,1切都是为了后面数据迭代的效率来做的。
还没有错的初始模型为何要得到还没有错的初始模型?因为数据迭代的效率会更高,首先是为了第1步方便第二步,我们没有说模型迭代,而是数据迭代,因为我们认为模型的训练已经被标准化了,在pingtai上,点个按钮它就训练好了,没有需要有模型训练的知识,我们专家的系统已经把它做好了。
所谓的数据站群哪个最好迭代,就是在海量还没有标注好的数据中,找到能够提高模型性能的数据,进行自动学习传统模型研发的范式是缺数据再去标,但发现标过来的数据跟以前的分布是1样的,对模型的分布没有太大用处所以需要用技术、算法找到对自己真正有用的数据,右边我们从海量数据中找出了9张有用的数据。
模型挖掘怎么做?在左边pingtai界面,点1个按钮,选1个数据集,可以自动在这里面挖掘,从几亿的数据里找到几张跟井盖相关的数据做训练,我们是用自动学习算法做数据择优的。
数据迭代以后,要做模型训练,在这个pingtai上用1键化的方式去做,这就是我们花几百万招过来的博士应该干的事情,他们没有应该天天调参数、挖数据,这些事情应该让ping站群哪个最好tai去干这1步,只要你点训练,它可以自动训练,背后怎么训练?是由开发者去开发的。
但是在整个pingtai上去进行操作的人,没有需要知道大规模模型训练,这降低了训练模型人员的从业要求,只要他知道这是怎么回事,把数据拿进去就可以训练,无代码1键完成模型开发做这种pingtai研发环境的好处是什么?数据沉淀在
pingtai上,动作可复用,流程可追溯这里面有几个界面:数据集管理、模型管理、任务管理数据集管理,就是1些标注好的数据集,以及挖掘、生成的数据集;模型管理,就是训练好的模型;任务管理,可以是标注任务,也可以是挖掘任务,也可以是训练任务,所有研发的轨迹全部停留在这里面。
为何要做这个事?很简单,站群哪个最好因为人力成本太高,企业无法招聘太多人从事每1个算法的研发有了这套pingtai以后,我们可以实现非算法人员开发模型的方式,让算法工程师做更高级别的技术,这些pingtai话、流程化的事情,可交给1般的技术人员或者学生来做。
整个过程中,我们认为沉淀更多的是数据价值,这比模型的价值更大为何数据的价值比模型的价值更大?数据没有了,模型是训练没有出来的,你没有会再得到提高,即使得没有到模型,数据在这儿,所以很容易再训练1个模型出来数据的重要性远远高于模型的重要性,所谓持续性的研发,沉淀出来的是有价值的数据,而没有是其他。
因为模型很容易重新训练,或者用没有同的数据迭代但数据日积月累需要很长的时间在整个pingt站群哪个最好ai上,通过数据没有停的挖掘、训练、标注、迭代,会1轮1轮增加新的数据,为每个任务沉淀出非常优质的数据集也就是说,在这个
pingtai上,数据变成了最重要的资产另外,所有的开发技巧也沉淀到pingtai上了如果大家搞研发管理,就会发现1个现象:部分人能做得特别好,部分人怎么都做没有好这是因为,任务、指令都是1样的,但没有同的人研发经验是没有1样的人才的素质属于没有可控因素,如果把这套技术能力进行沉淀,每个模型研发过程都能实现可追踪,这样就能让做没有好的人,通过学习,把事做好。
这样做的另1个好处是,没有会因为人才流失导致既有的模型失效所有公司都会面临人员流动这个问题,1位优秀员工离职以后,其模型很难复现,因为站群哪个最好别人没有知道这个模型怎样迭代才达到现有的精度,高低衔接很困难,费时费力但是在这个
pingtai上,就没有会出现问题模型训练过程中所做的所有数据的标注、操作,全部都在这个pingtai上,次要进行相关操作,全部流程都可以重复,没有需要重新做在座如果有做研发管理的,肯定会感觉这个器材用起来非常没有错现在,云天励飞内部的研发,除了1些非常高难度的,或者非要人工介入的算法研发(如人脸),其他的算法研发全部依赖于大规模算法开发。
pingtai也就是说基本全部没有需要算法工程师去做,都是标注人员在做以大堂搬运货物检测案例为例,每个工程师大概开发成本50万,1个月的时间差没有多5万块钱的投入,但现在只需要1个标注人员,站群哪个最好5⑺天就可以做完从0到实用部署。
为何能力稍微差1点,时间反而缩短了?这就是流程化,所有模型的训练只在1个pingtai上完成以前的方式,来来回回对接的成本太高,但在这个pingtai上,点击挖掘,自动寻找,再点标注,寻找标注人物,后台人员标注好,再点训练,全部就完成了,整个流程即使和非常有算法经验的工程师相比,这个
pingtai也有4倍以上的提升我们凭借这个pingtai在深圳做了几个项目,像龙华智能运算能力pingtai这里面涉及的算法有上百个,公司没有可能在短期内招聘几百个算法人员进行研发,因为这套pingtai。
当时还没有做得完备,所以让2个算法人员、10个标注人员,在6个月的时间把2站群哪个最好0多个算法开发全部完成了,成本也降低了很多为何它需要这么多的算法?这其实是整个城市管理思路的转变:以前是巡视型管理,需要实地巡查,才能发现、处理;现在布置相关摄像头,就能在后台发现,从而解决这种管理思路的转变,需要大量算法技术能力的支撑云天励飞在龙岗算法仓做了1个项目,也是算法训练取赋能。
pingtai,这里面也有上百种算法的需求需要强调的是,这套研发pingtai没有牺牲模型的精度,没有同的人群训练这套模型没有太大差别,因为在这个pingtai里,可以通过自动学习算法,基于数据集做快速迭代,从而得到比较高的检测精度最后提1点,云天励飞为何要建立这套。
pingtai?从行业看,视觉AI还处在站群哪个最好拓荒阶段,仍然是1片沙漠,没有变成1片绿洲,只有等到它变成绿洲的时候,才能长出1颗颗参天大树,长出许多AI企业城市治理对于算法的需求是成千上万的,每个算法都靠有经验的人员去开发,成本会非常高昂,因此云天励飞开发了这套系统,缩减成本的同时,加快AI应用的进程。
可以设想,未来的城市,有1张网络可以检测方方面面,所有的事件都可以在城市大脑里解决这背后的技术逻辑是,算法可以做智能调度比如对着大海的摄像头,没有用把汽车检测的算法集成到摄像头上,当城市拥有1万种算法时,可以在没有同场景下,调度合适的算法,来解决问题。
云天励飞的愿景是,通过知识图谱和整个pingtai的研发,让城市超脑实现自我进化,从而达到更高站群哪个最好的智能化水平值得1提的是,云天励飞的自进化城市智能体的思路,已经被写入深圳市政府工作报告中雷峰网雷峰网主题测试文章,只做测试使用。
发布者:洗棉花糖的棕熊,转转请注明出处:http://www.301搜索引擎优化.cn/?m=home&c=View&a=index&aid=11070轻装简行智能生活 由3星Galaxy Watch5 LTE版开始
上1篇 11月,苹果正精心打造首款XR头显代号N301
下1篇 相关文章
希望这篇文章能够帮助到您,如果有需要请随时取我们联系。
当前非电脑浏览器正常宽度,请使用移动设备访问本站!