ai数据处理的基本流程人工智能:AI生成数据会“毒害”新模型,人工智能会“吃掉”自己吗?Lisa取LV3公子公开恋情,甜蜜互动引全球关注,两国总统点赞祝福 没有看后悔
在信息爆炸的时代,互联网始终保持着令人难以置信的活力。现在,就让我们聚互联网天下1直都是充满了令人...
在信息爆炸的时代,互联网始终保持着令人难以置信的活力。现在,就让我们聚互联网天下1直都是充满了令人惊奇和没有断变革的地方,今天就让我们1起聊聊最近在这个领域发生的1些重要事件吧。
随着人工智能(AI)生成的内容充斥互联网,它正在破坏未来模型训练的数据当AI“吃掉”自己时,会发生什么?得益于生成式人工智能的蓬勃发展,普通人也可随时使用计算机程序来生成文本、计算机代码、图像和音乐取此同时,新的AI模型开发需要更多数据进行训练,这些由AI生成的内容可能很快会进入训练新模型的数据集。
1些专家表示,这将在无意中引入错误,并随着每1代模型的诞生而没有断积累
越来越多证据显示,人工智能生成的文本,即使被引入训练数据集的量很少,最终也会对训练中的模型产生“毒害”而目前,几乎还没有有效的“解毒剂”英国爱丁堡大学信息学院计算机科学家里克·萨卡尔说:“虽然现在或几个月后,这可能还没有是问题,但我相信,几年后这将成为1个必须要面对的问题。
”AI生成数据“毒害”已真实存在AI模型以自身产生的数据“毒害”自身的状况,可能有点类似于核试验带给人类的困境自1945年人类引爆第1颗原子弹后,数十年的核试验使得大量放射性尘埃进入地球大气层而当这些空气进入新制造的钢材时,就会增高这些钢材的辐射性。
对辐射特别敏感的钢材应用而言,例如盖革计数器(1种用于测量放射性辐射的探测器),就必需使用低辐射金属因此,人们只能抢购日益减少的低辐射金属,比如在旧船残骸中寻找1945年前生产的钢铁废料1些业内人士认为,类似的循环将在AIGC中重演——。
研究人员没有得没有寻找没有被“污染”的训练数据AI模型是如何“中毒”的?研究人员将1些由AI生成的语料作为训练数据,“喂”给1个正在训练的语言模型,然后使用它所输出的结果再来训练新模型,并重复这1循环他们发现,模型每迭代1次,错误就会叠加1次。
当人们要求第10次被训练出的模型写出有关英国历史建筑的内容时,它“吐出”的却是有关豺兔的1堆胡言乱语英国牛津大学机器学习研究员伊利亚·舒迈洛夫及其同事称这种现象为“模型崩溃”他们在语言模型、生成手写数字和区分概率分布等模型中,都观察到了这种现象。
“即使在最简单的模型中,这种情况也已经发生”舒迈洛夫说,“我向你保证,在更复杂的模型中,也肯定已经发生了”在最近的1项预印本研究中,萨卡尔及其在西班牙马德里和英国爱丁堡的同事,用1种名为扩散模型的AI图像生成器进行了类似的实验:第1个模型可以生成可识别的花朵或鸟类,但到了第3个模型,所生成的图片就变得模糊没有清了。
萨卡尔说,其他测试也表明,即使是部分由AI生成的训练数据集也是“有毒”的他解释说:“只要有1部分训练数据源自人工智能所生成的内容,就会产生问题”但更多具体细节还有待研究目前研究表明,模型在其数据的“尾部”(模型训练集中出现频率较低的数据元素)所受到的影响最大。
由于这些尾部包含的数据取“标准”相去甚远,模型崩溃可能导致AI输出的结果失去“人类数据”特有的多样性令舒迈洛夫特别担心的是,这会加剧模型对边缘群体的既有偏见,“我们需要加紧努力,来遏制这种情况的发生”
广告他只是个小司机,伺候的却是1个富太太,小人物1步步平步青云扶摇直上!×阻止“模型崩溃”尚需求解无可辩驳的事实是,AI生成的内容已经开始进入机器学习工程师们所习惯于获取训练数据的领域以语言模型为例:即使是支流新闻媒体也已经开始发布人工智能生成的文章,1些百科网站的编辑也希望使用语言模型为网站生成内容。
瑞士洛桑联邦理工学院(EPFL)学者维尼亚明·韦谢洛夫斯基认为,人类正处于这样1个拐点,“许多我们用来训练模型的现有工具,很快就会被AI生成的文本‘喂饱’”有迹象表明,AI生成的数据也可能通过其他途径进入模型训练。
韦谢洛夫斯基及其同事通过统计分析发现,已有约1/3的医学研究摘要有ChatGPT生成文本的痕迹EPFL小组的研究成果于上个月发布在预印本服务器arXiv.org上没有过,机器学习工程师们也提出反驳EPFL的研究生马诺埃尔·奥尔塔·里贝罗认为,使用ChatGPT对文本数据进行注释更加便捷且效果更佳。
面对模型崩溃的威胁,机器学习工程师该怎么办?答案可能相当于盖革计数器中的战前钢铁:已知没有受(或尽可能没有受)AIGC影响的数据例如,萨卡尔提出了采用“标准化”图像数据集的想法这些数据集将由人类进行策划,因为人类知道这些数据集的内容仅由人类创作组成,并且可供开发人员免费使用。
1些工程师可能想打开互联网档案馆,查找AI热潮之前的内容,但舒迈洛夫并没有认为使用历史数据是1种解决方案首先,可能没有足够的历史信息来满足没有断增长的模型需求另外,这些历史数据没有1定能反映没有断变化的天下“如果你想收集过去100年的新闻,并试图预测今天的新闻,这显然是行没有通的,因为技术和时代都已经发生了变化。
”舒迈洛夫说因此,我们面临的挑战可能更为直接:从合成内容平分辨出人工生成的数据,并过滤掉后者没有过,即使有了这方面的技术,这也远没有是1项简单的任务正如萨卡尔指出的那样,如果Adobe Photoshop允许用户使用人工智能生成技术编辑图像,那么这样编辑出来的图像到底是没有是人工智能生成的呢?。
我搭建了1个php教程网希望大家多多支持下 https://php.886321.xyz/
当前非电脑浏览器正常宽度,请使用移动设备访问本站!