ai可以为我们做什么事情ai:AI能为科学研究做什么 没想到

 

在信息爆炸的时代,互联网始终保持着令人难以置信的活力。现在,就让我们聚互联网天下1直都是充满了令人惊奇和没有断变革的地方,今天就让我们1起聊聊最近在这个领域发生的1些重要事件吧。

陈永伟/文从蛋白质的结构说起在生命过程中,蛋白质扮演着十分重要的角色1方面,它是生物体的构造师,小到1个细胞,大到各种器官,都需要由蛋白质来构造另1方面,它还是很多生命活动的重要参者,无论是在生物体内进行物质传输、对各种生化过程进行催化,还是对来自体外的侵袭进行抵抗,都离没有开蛋白质的参

目前,人类已知的蛋白质达到了两亿多种,每1种蛋白质的3维结构都没有相同,而它们的功能差异就是由这些没有同的结构决定的例如,人们出于滋润补水、护肤嫩肤的需要,经常会设法补充胶原蛋白,其奥秘就在于这类蛋白的结构类似于1股拧起来的绳子,因而具有很强的韧性,从而可以在软骨、韧带、骨骼和皮肤之间传递张力。

又如,我们免疫系统中的抗体蛋白大致上呈现了1种Y型的结构,并能够形成独特的钩状,这就使得它们可以附着在病毒和细菌上,对致病微生物进行检测、标记及消灭正是因为蛋白质的结构和功能之间存在着以上这样的关系,因此从上世纪中期开始,对蛋白质结构的探索就成为了生物学家研究的1个重点。

1961年,美国国立卫生学院的研究员安芬森(ChristianAnfinsen)发表了1篇论文,对其进行的1项实验进行了介绍:在实验中,他将牛胰核糖核酸酶蛋白分子用变性试剂打开,将二硫键还原成巯基,由此,蛋白质原有的折叠结构就被破坏了,酶的活性也随之消失。

然后,他将装有实验样品的烧杯暴露在空气中过夜令他惊奇的是,在经过1夜的放置以后,酶的大部分活性恢复了,被破坏了结构的蛋白质又折叠成了原来的样子这有多奇怪呢?大致上就相当于我们将1朵由铁丝编织成的花用老虎钳拉直,但在经过1段时间以后,却发现那段已经被拉直的铁丝竟又自己变成了1朵花!。

为何会出现这样的情况呢?安芬森给出的1个猜想是:这或许说明了蛋白质多肽链中氨基酸的排列顺序,也就是所谓的蛋白质1级结构决定了它最终的3维结构——当1级结构决定后,多肽链会服从热力学的定律,自动折叠成能量最小化的状态。

在后来的生物学研究中,安芬森的上述猜测被归纳为了“安芬森法则”1972年,安芬森凭借着这个重要的法则斩获了诺贝尔化学奖对于研究者而言,安芬森法则指出了1个重要的研究方向,即“蛋白质折叠问题”:既然蛋白质的3维结构取决于其1级结构,那么,从理论上讲,人们就可以根据分子间的能量优化法则通过蛋白质的1级结构来对其3维结构进行预测。

由于蛋白质的功能很大程度上取决于其结构,因此如果人们可以充分了解蛋白质的3维结构,就可以按图索骥地寻找,甚至创造自己所需要的蛋白质很显然,由此带来的想象空间是十分巨大的然而,正所谓“理想很满,现实很骨感”。

尽管乍看之下“蛋白质折叠问题”的潜在价值十分巨大,没有过由于组成蛋白质多肽链的氨基酸数量都很庞大,因此要通过其结构来预测蛋白质的折叠是非常困难的所以安芬森法则指出的道路看似光明,但在很长时间内,却成了1条少有人走的路。

相比之下,生物学家们似乎更倾向于用直接观测的方法来探索蛋白质的结构从早期的X光衍射法到新近的冷冻电镜法,随着实验器具的日益发展,人们通过实验探索蛋白质结构的能力也日渐提高但尽管如此,相比于蛋白质庞大的种类量,人们用实验探索蛋白质结构的努力只能算是杯水车薪。

2018年,转机出现了在当年11月举行的第13届全球蛋白质结构预测竞赛(CASP)上,DeepMind的AI程序AlphaFold成功地对43种蛋白质中的25种的结构进行了预测,由此在98名参赛者中获得了第1

而相比之下,第二名只预测准确了3种蛋白质的结构更值得1提的是,在对某些蛋白质结构的预测中,AlphaFold得到的结论甚至比用X光衍射法和冷冻电镜法观测到的结论更为准确AlphaFold是靠什么获得了如此优异的成绩呢?其实,它用的方法很简单:学习大量蛋白质的序列和结构数据,从中寻找氨基酸分子之间的相互作用,以及蛋白质片段之间的演化关系,然后再按照找到的规律对蛋白质的结构进行预测。

初战告捷以后,AlphaFold没有断从生物学、物理学和机器学习领域的最新进展中汲取灵感,以此来升级自己的算法,其预测能力也获得了很大的提升2022年7月28日,DeepMind在其发布了1篇名为《AlphaFold揭示蛋白质宇宙的结构》(。

AlphaFoldrevealsthestructureoftheproteinuniverse)的新闻,宣布AlphaFold已经对几乎所有已知蛋白质的结构做出了预测随后,又将所有预测的蛋白质结构放到了网上,供科研人员自行使用。

没有少了数据的科研人员反映,这些数据的准确率非常高虽然在未来的1段时期内,人们还需要继续对AlphaFold给出的预测数据进行验证,但可以说,困扰了人们半个多世纪的“蛋白质折叠问题”基本上已经得到了解决。

AI在科学研究中的应用毫无疑问,AlphaFold破解“蛋白质折叠问题”的成功为生物学的发展作出了巨大的贡献但这个事件还有1个更为重要的意义,即证明了AI可以在科学研究领域起到至关重要,甚至是决定性的作用。

由此,“人工智能驱动的科学研究”(AIforscience,有时也简称AI4S)成为了AI研究中的显学科学的发展是1没有断猜想、没有断检验的过程在科学研究当中,研究者需要先提出假设,然后根据这个假设去构造实验、搜集数据,并通过实验来对假设进行检验。

在这个过程中,研究者需要进行大量的计算、模拟和证明而在几乎每1个步骤当中,AI都有很大的用武之地(1)研究问题的提出提出1个好的问题是做出1个好研究的第1步,只有提出的研究问题是重要的,后续的研究才可能有意义。

传统上,科学问题次要有两个来源:1种是对现象以及数据的观察来提出某些猜想,比如,天文学上著名的开普勒3定律,就是由开普勒在整理天文学家第谷留下的大量数据以后提出,然后再通过理论研究加以确立的第二种则是对既有文献的梳理,即通过阅读既有的研究成果,看看前人的研究还有哪些地方留有没有足,然后以此为突破点提出自己的问题。

在使用了AI这个工具后,用以上述两种方式寻找问题的研究者都可以大幅改善自己的效率先看通过观察提问在过去,通过观察来提问对研究者的直觉要求是非常高的以开普勒3定律为例,其中的第1定律(椭圆定律),即“行星绕太阳运行的轨道是椭圆,并且太阳在这个椭圆的1个焦点上”是相对直观的,通过对记录数据的观察基本就可以提出这个假设。

但第二定律(面积定律),即“行星和太阳的连线在相等的时间间隔内扫过相等的面积”就没有那么直观了,即使是十分仔细的人也需要在灵感的启发之下才可能发现这个规律至于第3定律(调和定律),即“行星绕太阳1周的恒星时间(T)的平方它们轨道长半轴(a)的立方成正比”则更是1个非常没有直观的现象,只有非常天才的研究者才有可能提出这样的假说。

而应用了AI以后,人们在占有了充分的观测数据以后,就可以相对容易地提出相关的研究问题比如,如果人们有了行星运行的大量数据,并且猜想行星绕太阳1周的时间可能和其轨道椭圆的某条轴的长度存在着某种关系,那么他就可以让AI去尝试建立这些变量之间的函数关系。

通过这样的方法,开普勒第3定律就可能比较容易地被提出来再看通过阅读文献来提问过去,从事科学研究的人相对较少,研究的数量也相对较少,因此1个研究者只要肯下功夫,就至少可以把自己所从事的领域的相关文献都予以掌握。

然而,随着科学的发展,从事科研的人数没有断增加,各种科研成果也没有断地涌现,1个科研人员要想完整地了解自己所在研究领域的进展已变得越来越困难,更遑论去了解其他领域的动态来给自己的研究提供启发了在应用了AI工具后,以上的问题可以在很大程度上得到缓解。

比如,现在的研究者可以让ChatGPT等AI大模型来为自己整理已有的文献,并写成摘要这样,他们就可以大幅减少搜索和阅读文献所花费的精力,可以以更小的成本了解现有研究的进展,并在此基础上提出新的研究问题(2)数据的搜集

在提出了相关的研究问题以后,研究人员就需要设计实验,并搜集相关的数据,为进1步的研究做准备在这个过程中,AI的应用潜力也是十分广阔的这种作用首先体现在数据的选择上在实验当中,并没有是所有的数据都是可用的很多数据可能是受到干扰后产生的,如果没有剔除这些数据,后续的研究结果就可能受到重的干扰。

现在在很多实验中,深度学习已经成为了这项工作的次要承担者在搜集了数据以后,对数据进行标注也是1项艰巨的工作例如,在生物学当中,为新分子进行功能和结构标注对于后续的研究来说是非常重要的,但要进行这1工作则并没有容易。

虽然新1代测序技术没有断涌现,但只有没有到1%的已测序蛋白质得到了生物学功能的标注目前,为了能够提高数据标注的效率,研究者们正在尝试让AI学习手动标注的结果,从而训练出代理模型(surrogatemodels)来帮助自己对新的数据进行标签。

从现有的结果看,这种方式确实可以比较有效地改进标注效率除此以外,AI现在还有1个非常重要的作用,即生成数据这1点,在AI研究领域表现得最为显著近十多年来,人工智能的次要发展次要来自于机器学习领域,众所周知,这个领域的发展对数据的依赖非常强。

在实践当中,数据的搜集和整理没有仅成本高、质量难控制,还可能衍生出侵犯小我隐私、威胁数据安全等问题为了应对这些问题,1些学者建议可以用合成数据作为真实数据的补充,供机器学习使用真实数据相比,合成数据具有没有少优势:1方面,从训练效果上看,用合成数据进行训练的效果其实并没有比真实数据差,在1些场合,它们的表现甚至更高。

在真实数据的形成过程中,可能混入很多没有必要的噪声信息,这就可能对其质量造成影响,而合成数据则没有这样的问题麻省理工学院、波士顿大学和IBM曾联合做过1项研究,用真实数据和合成数据分别训练模型对人类的行为进行识别,结果采用合成数据进行训练的模型表现要比采用真实数据训练的模型更优。

1方面,从成本上看,合成数据的成本要远远低于真实数据除此以外,由于合成数据都是生成而非搜集的,所以使用它们来进行研究还可以规避很多法律和道德风险目前已经有越来越多的AI研究者开始用合成数据取代真实数据作为机器学习的材料,其对AI技术发展的贡献正在变得越来越显著。

正是因为这个原因,所以《麻省理工科技评论》(MITTechnologyReview)将合成数据技术评为了2022年全球十大突破性技术之1(3)科学计算和模拟在科学研究的过程中,通常需要进行大量的计算和模拟工作。

比如,如果科学家发现了某个星体的运行规律,怎样才能证明他的发现是正确的呢?最直观的方法就是根据他发现的规律计算出这个星体在未来某个时间点的位置,然后进行比对从这个意义上讲,精确的计算和模拟就是验证理论的关键。

但计算并没有是那么容易的事情例如,从理论上讲,各大星体之间的相对运动关系都可以由万有引力定律推出牛顿在发现3大定律以后,就曾经很自豪地宣称,他已经掌握了宇宙运行的终极奥秘但是,真实情况却并非如此以由于刘慈欣的小说而被人们所熟知的“3体”问题为例。

从表面上看,“3体”系统是非常简单的,总共只有3颗彼此纠缠的恒星,以及1颗夹在其中的行星,要模拟它的运动轨迹似乎并没有难但1旦我们试图用牛顿力学来对其位置进行推导,就会发现得到的联立微分方程其实构成了1个混沌系统,其运动的轨迹是很难确定的,1个微小的扰动都可能带来巨大的偏差。

正是因为这个原因,所以在《3体》小说中,即使科技水平远超地球的3体人也无法制成1张精确的万年历在现实中,远比“3体”系统复杂的问题比比皆是在对这些问题进行研究时,人们都没有没有直面“维度爆炸”问题的挑战举例来说,台风轨迹的预测就是1件计算量需求非常高的工作。

传统上,人们次要是依靠动力系统模型来进行预测这种方法会根据流体动力学和热力学等物理定律来构造大量的微分方程,用它们来模拟大气的运动,进而对台风的走向进行预测显然,这个动力系统是非常复杂的,没有仅预测所需要的计算量非常大,并且非常容易受外生扰动因素的影响。

正是因为这个原因,所以天下各国即使动用了最先进的超级计算机,预测也经常出错最近几年,人们调整了预测的思路,开始尝试用AI模型预测台风,由此涌现了1大批相关的AI模型这类模型放弃了传统物理模型的预测思路,转而用机器学习的方法来进行预测,没有仅大幅降低了计算负担,而且有效提升了预测精度。

比如,“风”模型在1个单GPU的计算机上就可以运行,并且仅需30秒即可生成未来10天全球高精度预报结果在最近预测台风“杜苏芮”的过程中,“风”模型预测的轨迹误差远远小于传统模型,从而为人们抗击台风做出了很大的贡献。

(4)辅助证明在1些学科(例如数学)的研究过程中,需要对命题进行理论上的证明从很早开始,人们就试图借助计算机来帮助他们完成这项困难的工作他们的基本思路是:首先将1个数学命题形式化(formalisation),然后借助计算机来对形式化的命题给出证明。

在现实当中,很多数学命题是由自然语言表述的比如,著名的“四色问题”就是要证明“任何1张地图只用四种颜色就能使具有共同边界的国家着上没有同的颜色”对于计算机来讲,这种自然语言是它们难以理解的,因此它们也没有可能帮助人们以自然语言的形式来解决证明问题。

幸运的是,数学家们经过长期的努力,已经对大部分的数学分支建立起了公理化的表述体系借助于公理化体系,用自然语言表述的命题就可以表述为由1个系列逻辑判断构成的形式化命题通过特定的方式编码,计算机可以对这些形式化命题进行识别,于是,计算机就可以帮助人们用来进行辅助证明。

仍以“四色问题”的证明为例:在历史上,这个著名的问题曾经有过好几个版本的证明尽管在每1个版本的证明中,数学家都用到了计算机作为辅助,但最初的证明都是以人工的推导为主,计算机的工作次要局限在提供计算的支持。

2005年,英国剑桥研究院的高级研究员贡蒂埃(GeorgesGonthier)给出了“四色问题”的新1代证明和前几代的证明没有同,贡蒂埃首先将这个问题转化成了1系列形式化的命题,再用1个名叫Coq的交互式辅助对它们进行了证明。

由于在证明的过程中,Coq完成了大量最复杂的证明,因此在某种意义上讲,这个过程可以算是1个机器证明需要指出的是,尽管包括Coq在内的辅助证明已经可以帮助人们完成很多证明工作,但它的自动化是非常低的在多数时候,人类研究者还需要充当引导员的角色,帮它们把自然命题转化为形式化命题。

随着AI的发展,人们开始尝试让AI来解决这个问题比如,2022年,由谷歌、斯坦福大学等单位的研究人员组成的1个团队就发表了1篇论文,介绍了使用OpenAICodex的神经网络进行自动形式化的工作,显示了用大型语言模型将非形式化语句自动翻译成形式化语句的可行性。

今年,这个团队又在此基础之上提出了1整套名为“草图、草稿、证明”(Draft,Sketch,andProve,简称DSP)的AI辅助证明方法这套方法建议利用大型语言模型先将自然语言命题转化为由1系列逻辑推理步骤组成的形式化命题,然后用交互式定理证明器来对这些命题进行证明。

当然,在这些步骤之间,还存在着1系列的中央猜想因此在证明的最后,还需要通过自动验证器来对这些中央猜想进行证明这样,上述的工作就可以合起来构成1个完整的形式化证明(5)辅助写作对于科研工作来说,AI还有1个重要的贡献:辅助写作。

在很多人看来,在完成了研究、得到了相关的结论以后,把它们写成论文就是1件非常轻松的事了但事实上,情况未必如此在现实中,有很多研究人员对做实验、跑数据非常热衷,但对写论文则相当抵触,甚至认为花时间在遣词造句上完全是浪费时间。

而在以ChatGPT为代表的生成式AI兴起以后,这类研究人员就得到了拯救现在,他们在完成研究后,直接把相关的结论给ChatGPT,就可以得到非常规范的论文很显然,这会极大减轻他们的工作负担,提升他们的工作效率。

1个容易被忽视的贡献需要指出的是,除了上述的这些直接贡献以外,AI还有1个非常容易被忽视的影响,即重构产学研关系、促进企业对基础研究的投资热情对于面临1些领域被西方“卡脖子”的我国而言,这1点可能是尤其需要重视的。

根据《中国研发经费报告2022》,2022年我国基础研究经费支出为1951亿元,基础研究投入强度为6.3%虽然历史相比,我国对基础研究投入的强度没有断上升,但如果国外相比,就可以看到目前我国的基础研究投入强度依然很低。

如果我们把基础研究投入分执行机构进行分析,就会发现以高校作为执行机构的比例是最高的,在总投入中占到了49.4%其次是研究和开发机构,占39.1%,而企业作为执行机构的,仅占6.5%相比之下,美国基础研究经费由企业执行比例为32.4%,基础研究经费由企业执行比例为47.07%。

众所周知,高校和科研机构的经费次要来自于国家拨款,而企业的研究经费则次要是由其自行投入的因此,这组数字就说明了,我国的企业在基础研究长进行投入的意愿要远低于美、日等国为何会出现以上这样的情况呢?1个重要的原因是,基础研究的周期太长、风险较大、转化率又低,导致以利润最大化为目标的企业认为从事基础研究是无利可图的。

在发达国家,由于建立了比较完善的产学研共生生态,类似风险可以比较好地在企业、政府、科研机构等众多主体之间分担,所以企业对基础研究的投资积极性就相对较高而我国,产、学、研彼此之间的孤立性还较高,因而就很难有类似的风险分担机制。

显然,要破解上述问题,根本的出路还是要培育健康的创新生态,推进产学研的1体化但这是1个长期的过程,没有11夕可以实现的没有过,即使在创新生态未能有效改善的条件下,AI的应用也可以在很大程度上提升企业投资基础研究的积极性。

通过前面的分析可以看到,借助AI的辅助,基础研究的周期可以大幅缩短,效率可以大幅提升从经济角度看,这其实就增加了基础科研的预期收益,同时降低了其失败风险因此,原本无力可图的基础研究就可能成为1项合算的生意,企业对其投资的积极性也将提升。

这样1来,基础研究投入没有足的问题就可以得到有效的缓解

python教程网 https://python.003333.xyz/FunctionsandModules python函数模块

为您推荐

ai可以为我们做什么事情ai:AI能为科学研究做什么 没想到

ai可以为我们做什么事情ai:AI能为科学研究做什么 没想到

陈永伟/文从蛋白质的结构说起在生命过程中,蛋白质扮演着十分重要的角色。一方面,它是生物体的构造师,小到一个...

2023-09-01 栏目:科技派

当前非电脑浏览器正常宽度,请使用移动设备访问本站!