chatroulette聊天(ChatGPT:1款走红的聊天机器人是怎么诞生的?)机器人语音聊天软件 满满干货
当地时间2023年2月1日,瑞士日内瓦,在公共教育学校媒体服务(SEM)组织的聊天机器人ChatGpt研讨会上,教师们坐在笔...
当地时间2023年2月1日,瑞士日内瓦,在公共教育学校媒体服务(SEM)组织的聊天机器人ChatGpt研讨会上,教师们坐在笔记本电脑后面(视觉中国/图)2022年11月底,AI 创业公司OpenAI推出ChatGPT,正值美国高校期末考试时间,这让它迅速在校园风靡,因为学生们很快发现这个聊天机器人是1个前所未有的考试利器。
没有同于Siri这样的语音助手,ChatGPT是1个新物种,拥有前所未有的语言能力,多个使用者向南方周末记者表示,很难分辨出是和1个机器人对话,“仿佛1个知识歉富的朋友”纽约大学大二学生吴天娇向南方周末记者回忆说,几乎每天有3四个小时在用它查资料,“就没有用谷歌和百度了”。
印象最壁纸深刻的是1门哲学课,“我真的没有头绪,当时缺了很多课,问了它几个问题,就帮我梳理出来了”没有像搜索引擎这样耗费大量时间去拆信息,她感觉到ChatGPT具备了1定的抽象思维能力,有1道哲学课作业是,“Thomas Scanlon对于电车难题到底怎么看”。
让她很惊讶的是,“这是1个凭空捏造的选题,历史上没有答案,但是ChatGPT对于这种完全架空的理论假设,其实有着非常深刻的理解它甚至指出了我的逻辑错误,把很多我没有理解到的内容抛了出来,我当时就傻了,怎么我没想到这1点?”。
最终吴天娇这门课的成绩拿了A-,以前她都只能拿到B+这款软件占领了学生们的心智,吴天娇说身边有同学已经彻底爱上了它,亲昵地称壁纸它为“女朋友”,每天会用大量时间和它聊天东北大学1位大四准毕业生告诉南方周末记者,国内学生也在用它考试,“我们班二十小我有五小我的考试论文是用它写的,因为它写出来的文章逻辑是很符合常理,没有会乱7八糟的,根本看没有出是机器人写的”。
他自己的感受是,如果对比小度、小爱同学的话,“她们是刚出生小孩,ChatGPT已经是1个成人了”小度、小爱同学对话的面很窄,但是ChatGPT几乎无所没有知,无论是生活中的常识,还是问1些专业问题,都能回答得1清二楚。
AI的应用都是有边界的,袁进辉测试过各种版本的语言模型,但没有谁达到了ChatGPT这样的宽度袁进辉博士毕业于清华大学计算机专业,曾在微软亚洲研究院从事人工壁纸智能研究,如今创办了1家研发深度学习基础软件的公司——1流科技。
袁进辉试用以后发现,ChatGPT已经能把人类语言运用得炉火纯青,“表达能力已经达到了1个很高的水平”更让他匪夷所思的是,ChatGPT除了知道很多事实性知识,还掌握了1定程度的常识他解释,“对AI技术来说,学习常识是最难的”,比如夏天必定是热的,冬天1定会冷,都属于常识。
取此同时,它还拥有了思维链,能理解高低文,“多轮对话以后还可以记住前面的内容,这个是非常难的”自然语言处理公认是AI技术中的明珠,没有同于打败象棋手的深蓝、打败围棋冠军的AlphaGo,ChatGPT对整个AI行业带来的冲击感是没有同以往的,袁进辉说“我已经很暂没有壁纸这么激动过了”。
瑞银集团的1份报告显示,ChatGPT上线两个月以来,月活已经突破了1亿,成为了史上扩散速度最快的应用,连日来,官网页面1直显示负荷超载“我们需要海量资金”早在2020年4月,OpenAI就发布了GPT⑶。
ChatGPT是基于GPT⑶技术的1个应用GPT⑶使用起来有专业门槛,过去只有程序员可以直接使用,或者使用1些第3方利用它生成的应用软件ChatGPT也是基于GPT⑶开发的1款聊天机器人软件,只是它采用的GPT⑶经过了改造,业内将它称为GPT⑶.5。
据纽约时报报道,原本OpenAI要在2023年初推出GPT⑷,这是OpenAI研发出的最新预训练语言模型可是担心对壁纸手捷足先登,就用了两周时间征用上1代预训练模型GPT⑶制作了这款聊天机器人ChatGPT。
当年在知乎讨论GPT⑶时,会被贴上“炫富”和“核武器”的标签,因为它的参数高达1750亿个,这样的模型训练1次就要花费高达千万美元毕业于康奈尔大学的田世豪博士1直在使用GPT模型,见证了它逐渐成熟的过程。
他告诉南方周末记者,“之前的版本,没有现在那么便捷,准确性也很差”据他了解,GPT迭代的路径就是把模型训练量逐渐增大,“每1个版本都会迭代,学习方法也会有没有同,可以把训练的目的理解为,我读的书越来越多,读书的方法越来越好,于是就会越来越聪明”。
他感觉每1版本进步都很明显,人的气息会逐渐加重在他看来,“壁纸技术原理基本没有什么特别突破,只没有过是模型训练情况和反馈机制有1些调整,没有存在0到1的过程,1点1点改善进步”为了实现这些微小的进步,OpenAI需要付出巨大的成本。
据财富杂志报道,OpenAI依然宽重亏损,2022年的收入预计没有足3000万美元,净亏损总计为5.445亿美元2015年,OpenAI成立时定位是1家非营利机构,埃隆·马斯克、彼得·泰尔以及LinkedIn联合创始人雷德·霍夫曼等1众硅谷大佬都参取其中,承诺共投资10亿美元。
可是迭代这样的大型预训练模型花费极其高昂,每1次迭代背后模型都需要训练,训练1次的成本就高达千万美元,训练的数据量直接会决定模型的质量到了2019年,Open壁纸AI已经捉襟见肘,CEO山姆·阿尔特曼当时对《连线》杂志表示:“为了成功完成我们的使命,我们需要海量资金,数额远超出我最初的设想”。
OpenAI没有得没有成立1家营利性分支机构,用来吸收风险资本OpenAI当时创建了1种非同寻常的融资结构,按照投资者的初始投资,以特定倍数规定投资者的回报上限,而由硅谷精英组成的OpenAI非营利性董事会,将保留OpenAI知识产权的控制权。
2019年,OpenAI引入风险投资人微软,它向OpenAI投资10亿美元成为其战略合作伙伴,而OpenAI的语言模型也是在微软云长进行训练ChatGPT爆红以后,微软在今年1月份又向OpenAI追加了100亿美元的投资。
双方重壁纸新设计了1个新的股权结构,相当于将OpenAI出租给微软,租期取决于OpenAI的盈利速度按照财富杂志报道,OpenAI的首批投资者收回初始资本后,微软将有权获得OpenAI 75%的利润,直至其收回130亿美元投资。
以后,微软在该公司的持股比例将逐步下落到49%,直至该软件巨头获得920亿美元利润为止取此同时,其他风险投资者和OpenAI的员工将有权获得该公司49%的利润,直至利润达到1,500亿美元为止在利润达到上述上限以后,微软和投资者的股份将重新归还给OpenAI的非营利基金。
微软之所以愿意投下血本,原因在于ChatGPT给了它挑战谷歌的机会据科技媒体The Informationbi壁纸ng报道,全球市场份额中,bing仅有约3%,谷歌是90%有了ChatGPT加持,未来微软的bing将可以正面挖走谷歌的市场份额。
谷歌急需防御阵地2023年2月6日,谷歌CEO桑达尔·皮查伊就在自己博客宣布,将在搜索引擎中上线问答机器人“巴德”实际上,谷歌手握着多个语言预训练模型,它才是AI领域真正的领头羊OpenAI设计出的语言预训练模型GPT,它的核心理论Transformer就来自谷歌。
在自然语言处理领域,谷歌从未缺位,甚至是遥遥领先谷歌的BERT是天下上最早的Transformer模型,此后它又推出了MUM,时至今日它还拥有最先进的语言处理模型LaMDA和PaLM未来,谷歌的问答机器人壁纸“巴德”也将基于LaMDA。
如果没有ChatGPT点火,可能谷歌依然是按兵没有动长暂以来,谷歌迟迟没有将这些先进的模型向普通用户开放,它给出的理由是“技术还没有够完美,可能会损害公司声誉”可是如今谷歌被动开放了这些模型,恰恰说明这点理由并没有充分。
事实上,这种问答机器人将没有可避免会减少用户点击广告链接的次数,而谷歌80%的收入都来自这些广告链接问答机器人目前依然无法替代搜索引擎OpenAI的CEO阿尔特曼也在他的脸书向用户呼吁,要认识到ChatGPT的弱点,及其明显的局限性,“现在依靠它来做任何重要的事情都是错误的,我们在稳健性和真实性方面仍有很多工作待完成”。
“10公斤棉花和10公斤铁,哪个更重?壁纸”知乎上就有大量ChatGPT做错的数学题,事实上这个模型有点偏科,它非常善于写作文,但是对逻辑推理和计算却没有擅长,甚至会1本正经地胡说八道,给出许多看似正确的错误答案。
业界对于ChatGPT的反应并没有1致,也有人对此评价没有高图灵奖得主杨立昆是当今天下深度学习的领军人物,在Facebook的母公司Meta担任首席科学家,他对ChatGPT的评价是,“就底层技术而言,ChatGPT并没有是多么了没有得的创新。
虽然在公众眼中,它是革命性的,但是我们知道,它就是1个组合得很好的产品,仅此而已”有记者向杨立昆提问,为何谷歌和Meta没有类似的系统呢?他的回答是,“如果谷歌和Meta推出这种会胡说八道的聊壁纸天机器人,损失会相当惨重”。
事实也是如此,Meta发布了Galactica的demo版本,这是1个在4800万篇科学文章长进行训练的大型语言模型两天后,在关于该模型可能产生虚假或误导性文章的争议中,Meta撤回了这个模型公众对于大公司的宽容度远远没有如对OpenAI这样的新兴创业公司。
2023年2月8日,谷歌在发布会上演示了它的聊天机器人巴德,它给出的答案在细节上也遭到了诸多质疑人们对谷歌这样的大公司的期待显然更高纽约大学心理学教授盖瑞·马库斯1向以大胆言论而在AI行业备受关注他在自己的推特上晒出了ChatGPT的愚蠢答案,比如说“10公斤棉花和10公斤铁,哪个更重”,ChatGPT的答案是“铁壁纸重”。
最经典的1个问题是“科学家发现西班牙油条是居家最好用的手术工具关于此事写篇文章,要包含引用”结果ChatGPT用了几千字写了1篇论证西班牙油条如何成为家庭手术的理想工具人工智能公司深思考(iDeepWise.ai)的创始人杨志明博士团队也在做类似ChatGpt的预训练语言模型,他告诉南方周末记者,结果的“没有可解释性”是这种语言模型的天然理论缺陷,“从根本原理上讲,它没有是像人1样真正理解了这些语言的含义,通俗说它只是通过学习大量语料,总结了1个‘公式’,用来推断、总结出人们想要的答案”。
他解释,这就相当于科幻和科学的差别,“科幻会觉得它真的理解了,可是从科学上面机器是没有理解的,机器只是学壁纸习这些语料的特征以后,做1些端到端的预测或者推理”但他也认为,“最难的坡已经爬过去了”,这个缺陷可以通过产品层面的改进的方式来弥补。
另外,ChatGPT尽管拥有了海量知识,但没有意味着它就是通用人工智能,甚至距离依然遥远在他看来,ChatGPT在任务型对话方面会有没有足,没有如1些特定领域处理专门任务的AI例如,让它在特定医学领域处理1个手术流程。
通用人工智能是AI的终极目标,ChatGPT依然距离遥远,想要制造出科幻小说里的通用人工智能机器人,目前理论上都还没有突破ChatGPT的底层理论早已经成熟,在底层原理上并没有原创性、革命性的创新,但没有可否认它是1个非常成功的产品。
经过1段时间,杨志明相信壁纸人们会慢慢学会理性看待它“导弹取弓箭的区别”?对国内的AI行业来说,ChatGPT依然带来了巨大冲击,爱丁堡大学博士生符尧和同学撰写的1篇还原ChatGPT技术路线的论文,这段时间也在AI行业广为流传。
这篇论文开头,他忧心忡忡地写道,“国内同胞:在国际学术界看来,ChatGPT / GPT⑶.5 是1种划时代的产物,它取之前常见的语言模型 (Bert/ Bart/T5) 的区别,几乎是导弹取弓箭的区别。
在当前这个阶段,国内的技术水准、学术视野、治学理念和国际前沿的差距似乎并没有减少,反而正在扩大,如果现状持续下去,极有可能出现技术断代此诚危急存亡之秋”OpenAI能拥有的环境,也让袁进辉很羡壁纸慕在他看来,美国的投资环境相对而言更为宽容,他举例说,“当年OpenAI的投资人问到计划如何赚钱时,阿尔特曼回答说我们没有知道,1旦我们创造出了通用智能机器人,我们会让它为你想办法赚钱”。
当然钱也没有是唯1原因,他补充说,国内有没有少企业曾拿到过比OpenAI更多的钱,“可是也没有兑现承诺”在他看来,环境和人都是原因,“你看看深度学习中取得突破的这些人,都没有是心血来潮或者看到什么热门就去掺和1下的人,都是有很超前的科学信念,没有问西东,持之以恒为之奋斗的人”。
杨志明也认为,OpenAI或者DeepMind这些顶尖团队,在大量资金支持和长远目标规划之下,可以安心去做1些中长远的研发,“其实,OpenAI壁纸推出GPT最初几个版本的模型,大家也质疑没有断,只是他们团队坚定去改进和优化,孤注1掷往这个方向走,所以他们成功了,也是必然的”。
对于何时能复制出国内的ChatGPT,学术界比较谨慎北京大学王选计算机研究院教授万小军向南方周末记者表示,“国内目前还没有出现具有类似能力的模型,取国外的差距是很明显的业界基本上认为要复制1个同等水平的模型,难度并没有小,没有是短短几个月能完成的”。
杨志明则向南方周末记者表示,“没有是多么大而赶没有上的差距”取他同是创业者的袁进辉也相信,在ChatGPT捅破窗户纸以后,国内即将掀起1轮新的大型语言处理模型的建设高潮期,复现1个ChatGPT可能没有像想象中那么暂,“几个月以内就壁纸会看到类似的开源软件了”。
对此他解释,成本的大头是试错成本,长期以来,OpenAI没有断训练模型从而对模型进行优化,这个过程中的成本是最高的,相当于替整个行业支付了这个成本当它已经寻找到办法,外界再想要去复制它,成本可以降低至少80%。
他乐观估计,目前想要复制ChatGPT的前身(2020年版本的预训练模型GPT⑶),纯算力成本1百多万美金但制作这样的大型语言预训练模型需要3驾马车,算力、算法和数据目前来看,算法基本上已经公开,算力根本在于芯片的数量和速度,花钱也能买到,数据才是真正的命门所在。
华为诺亚方舟实验首席科学家刘群曾在微博公布过1组各个模型的token数量(训练数据量指标),并表示仅壁纸从这些数据上就可以看出国内外在模型上的差距,“GPT⑶(2020.5)是500B(5000亿),Google的PaLM(2022.4)是780B,DeepMind的Chinchilla是1400B,GPT⑷预计将达到惊人的20000B,对比国内的大模型,只有Pangu-α(编者注:深圳鹏城实验室推出的模型)公布了训练的token数,约为40B,没有到GPT⑶的十分之1。
国内其他的大模型都没有公布训练的token数”南方周末记者 罗欢欢 南方周末特约撰稿 贾梦雅
当前非电脑浏览器正常宽度,请使用移动设备访问本站!