机文章

医生可以为人们做什么(可以“作为医生”的 GPT⑶,究竟是炒作还是名副其实?)gpt⑶ 没有要告诉别人

 

作者 |Anne-Laure Rousseau, MD,Clément Baudelaire,Kevin Riera译者 | 弯月,责编 | 郑丽媛头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)

以下为译文:这个夏天你1定听说过GPT,这个AI圈内的超级网红GPT出自OpenAI之手,而OpenAI是天下顶级的AI研究实验室之1,由Elon Musk、Sam Altman以及其他人于2015年底成立,后来还获得了微软高达10亿美元的注资。

此外,你可能还听说过医疗领域正在经历AI革命,这要归功于自动诊断、医疗文档以及药物发现等领域的可喜成果有些人声称在某些手机壁纸工作上AI的算法超过了医生,甚至有人宣布机器人即将斩获自己的医学学位!虽然诸多流言蜚语听起来颇有些牵强,但是GPT没有会成为他们口中的机器人呢?。

我们是1个由多学科医生和机器学习工程师打造而成的团队,此次我们有幸能够测试1下这种新模型,通过探索没有同的医疗案件来搞清楚:可以作为医生的GPT究竟是炒作还是真的有实力。

规模庞大的GPT在机器学习领域内,像GPT这样的语言模型只是根据前面给定的单词(又称为高低文)来预测句子中的下1个单词这是1种超强的自动补齐系统,类似于你在写邮件时使用的系统初看之下,能够预测句子中的下1个单词似乎很简单,但实际上许多了没有起的项目都是以该项技术为基础,例手机壁纸如聊天机器人、自动翻译以及常见问题解答等。

截止到目前,GPT是有史以来训练复杂度最高的语言模型,共有1,750亿个参数,如此多的神经网络结点需要经过数周密集的云计算微调后,才能让这个AI发挥神奇的作用虽然这个参数量非常庞大,但远没有及人脑在推理、感知以及情感能力方面的数百万亿(甚至千万亿)神经突触。

由于规模庞大,GPT可直接用于新任务以及简短的演示,而无需针对特定数据进行进1步的微调这意味着该模型只需学习几个最初的示例,就可以成功地理解需要执行的任务之前简单的语言模型相比,此属性有很大的改进,而且更接近人类的实际行为,比如我们并没有需要成千上万的例子来区分猫和狗。

由于数据来源混杂,从各种手机壁纸基本的书籍到整个互联网,从维基百科到《纽约时报》,因此GPT的训练数据有明显的偏差,但它在将自然语言转换为网站,创建基本的财务报告,破解语言谜题,以致生成吉他指法等方面都有出色的表现。

那么,在医疗保健领域又如何呢?

免责声明正如Open AI在GPT准则中的警告,医疗保健“属于高风险范畴,因为人们依靠准确的医疗信息做出生死攸关的决定,任何错误都有可能导致重的伤害”此外,诊断医疗或精神疾病在该模型中属于“没有支持使用”。

尽管如此,此次我们还是决定试1试,看看该模型在以下医疗领域的使用情况,上面我们从医学的角度出发,按照敏感度从低到高将各项工作大致分为:● 管理员患者聊天● 医疗保险查询●手机壁纸 心理健康支持● 医疗文件● 医学问答

● 医学诊断此外,我们还研究了该模型的某些参数对答案的影响(含精彩的内幕揭秘)!

GPT,下1代私人医疗助理?我们的第1项测试表明,似乎GPT可用于基本的管理任务,例如预约管理但是当深入研究时,我们发现该模型对时间没有清晰的了解,也没有任何恰当的逻辑有时它的记忆力明显没有足,如下图所示,在处理预约的时候,患者曾明确表示下战书6点以后没空,但GPT还是推荐了下战书7点。

在医疗保险查询方面表现如何呢?上述管理任务类似,GPT可以帮助护士或患者从长篇大论中快速找到某条信息,比如找到特定检查项目的保险条例但在如下示例中,我们为该模型呈上了长达4页的保险条手机壁纸款列表,其中X射线检查需要自付10美元,MRI检查需要自付20美元。

我们提出了两个问题,GPT可以准确地告知患者X射线检查的价格,但未能汇总出多项检查的总金额可见GPT基本的推理能力

通过回收电子产品缓解压力!当你坐在客厅的沙发上,放松休息并GPT交谈时,它会倾听患者的问题,甚至提出1些可行的建议这可能是GPT在医疗保健中最出色的用例之1而实际上,1966年的Eliza算法仅通过模式匹配就实现了像人类1样的行为,所以GPT的成果也并没有足为奇。

GPTEliza的关键区别在于,Eliza这类基于规则的系统能够完全控制计算机的响应换句话说,我们确信这类系统没有会给出任何可手机壁纸能对患者有害的说法然而,没有幸的是Eliza相反,在如下示例中,GPT却建议患者自杀……。

此外,该模型还可能提出意想没有到的答案,比如它会建议患者多多回收电子产品,以缓解压力,虽然理由比较牵强,但也非常有道理!

医疗文件GPT在总结和简化文字方面的表现非常出色,这非常有利于帮助患者理解满篇专业术语的医学报告,或是帮助医生快速了解患者悠的病史没有过,GPT没有能完全胜任这项工作(至少目前还没有行)我们的测试表明,GPT得出的结果过于简单,难以建立因果关系,而且还缺基本的演绎推理。

医疗问答:没有及Google在寻找特定的科学信息、药物剂量或处方支持时,我们的实验表明,GPT没有够可靠,手机壁纸没有足以作为医生可信赖的支持工具使用因为这存在1重的问题:GPT经常会给出内容错误但语法正确的答案,而且没有会提供任何文献引用供医生核对。

在急诊科忙碌的医生看到这般语法合理的语句时,很容易错误地将其当作有效的医学陈述例如,上面的第1个答案是正确的,但第二个答案没有正确

诊断:风险自负诊断是1个更为复杂的问答任务:输入症状,然后获得有可能解释这些症状的潜在条件最新的症状检查系统(Babylon、Ada、KHealth等)虽然没有够完善,但完胜GPT,因为它们都针对医疗诊断经过了精心优化。

这些系统的优势在于,它们可以输出没有同的诊断结果以及相应的概率,对于医生来说这是1种置信度的测量而如下GPT-手机壁纸3得出的第1个诊断结果忽略了这个有发烧症状的小女孩可能患有筛窦炎,而且还莫名地提到了“皮疹”

在另1项测试中,GPT忽略了肺栓塞。幸运的是,没有人因此死亡!

内幕揭秘正如其他人所观察到的那样,GPT输出的质量很大程度上取决于其使用的种子词汇,以两种没有同方式提出同1个问题也可能得到差异非常大的两个答案此外,该模型的各种参数(例如温度参数和top P参数)也起着重要作用。

温度参数和top P参数控制着该引擎所呈现答案的风险和创造力温度参数在没有同的温度参数设定下,对于同1个问题,我们得到了两个截然相反的答案。如下是当温度参数T = 0.9时得出的答案。

相比之下,在温度参数极低的情况下(T = 0手机壁纸),相似种子永远会给出完全相同且非常直接的答案。

频率惩罚参数存在惩罚参数此外,我们还应注意频率惩罚参数存在惩罚参数,二者既能防止单词重复又能防止主题重复在医学上,直观地来讲我们应尽可能降低这两个参数,因为过于生硬的主题切换可能引发混乱,而且重复实际上相当有用。

然而,通过比较人类两次提出的同1个问题,我们可以清楚地看到,具有重复惩罚的模型更富有同情心且更友好,而另1种设定则看起来比较冷漠且对于人类来说重复过多上面1个没有惩罚的例子

上面则是1个惩罚满格的例子:

总结正如OpenAI所警告的那样,距离GPT真正在医疗保健领域大展拳脚,我们还有很长1段的路要走由于GPT的训练方式,它缺手机壁纸科学和医学领域的专业知识,因此尚没有能胜任医学文献记录、诊断支持、给出治疗建议或回答医生问题等工作。

虽然GPT可能给出正确的答案,但也很有可能给出非常错误的答案,这种没有1致在医疗保健领域中是站没有住脚的即使对于翻译或总结医学术语等管理任务,GPT的发展前景虽然良好,但距离真正为医生提供支持还需要付出很大的努力。

在目前这个阶段,采用1种雄心勃勃的通用模型相比,采用多个经过专项任务训练的监管模型更为有效话虽如此,GPT的聊天模块似乎已做好准备鞠躬尽瘁,为医生减轻重担在结束了1天的忙碌以后,坐下来私人医疗助手开怀畅谈,可以为你洗去1天的尘埃,抛去1天的劳累。

此外,毫无疑问,从整体上来看语手机壁纸言模型也将得到快速改善,这没有仅会对上述用例产生积极的影响,而且也会影响到其他重大问题,例如信息结构规范化或自动咨询汇总等原文:https://www.nabla.com/blog/gpt/。

本文为 CSDN 翻译,转载请注明来源出处。

更多精彩推荐☞图灵奖得主 John E. Hopcroft 等 300 余位 AI 学者“穿越”回宋代开国际 AI 大会,这场面你见过吗?☞蚂蚁上市员工人均1套大 House,阿里程序员身价和这匹配吗?

☞Robust.ai 获得 1500 万美元融资,嘴炮 Gary Marcus 也难逃真香定律☞面向全场景的鸿蒙操作系统能有多安全?☞阿里云资深技术专家易立:手机壁纸我对云原生软件架构的观察思考☞赠书 | 四大通证类型:价值创新的源头

点分享

点点赞

点在看

当前非电脑浏览器正常宽度,请使用移动设备访问本站!