您现在的位置是:首页 > 医疗

谷歌AI运用帮助医生撰写医疗文档的研究进展分析

2022-01-05 02:05:01

「Speech recognition for medical conversations」论文介绍了作者们开发用于医疗转写的语音识别系统的经历,这个系统的功能就是自动把医生和病人间的对话自动转录为文字。为了达到这个目标,谷歌的研究人员们沿着两个思路构建了这个系统:一个是基于音素的连接性时间分类(Connectionist Temporal Classification)模型,另一个是基于字母“聆听、关注、拼写”(Listen Attend and Spell)的模型。

医疗AI已经火热了很有一阵子了,计算机视觉相关研究的进步让医学图像辅助诊断改头换面,不仅准确率日新月异,医疗影像创业公司也已经遍地开花。

那么除了医疗影像之外,深度学习还能以别的方式帮助医生、服务病人吗?答案当然是肯定的,谷歌大脑就发出一篇博文,介绍了他们利用深度学习帮助医生撰写医疗文档的研究进展。

理解医疗对话

如果医生能更好地与整个团队沟通自己的想法、担忧和未来计划,相信肯定可以给病人带来更高的医疗服务质量,而高质量的文档记录就能在这个过程中起到帮助。医生们最想做的事情当然是多花点时间在照顾病人上,然而实际上医生们常常需要花一半的工作时间在电子医疗档案(EHR)中写文档记录。与之相关的是,一份对医生的调查报告中也显示出,参与调查的医生中超过一半都显示出了工作超负荷、精疲力竭的某些症状。

为了减轻一些文本记录的负担,有些医生已经开始聘请医疗速记员参与到他们的日常工作中。这些速记员跟着医生,记录下医生和患者之间的沟通对话,然后在EHR中建立记录。近期也有一项研究显示,速记员的引入不仅提高了医生的满意程度,同时也提高了医学图表的质量和准确度。不过,医生和患者之间对话的数量远远超过了现有的医疗速记员的工作能力。

谷歌的研究人员们了解到这一状况后就开始考虑,谷歌的语音识别技术如今已经有了长足的发展、也已经应用在了GoogleAssistant、GoogleHome和GoogleTranslate中,那它是否也能用来记录医生和病人之间的对话、帮助医生和速记员更快地总结整理笔记呢?

在近期发表的「Speech recognition for medical conversations」论文中,谷歌的研究人员们就表明了可以为医学对话建立自动语音识别的文本转写系统。当前多数用于医学领域的自动语言识别(ASR)解决方案关注的重点都是转写医生说的话(也就是说,是带有可预计的医疗词汇的单说话人语音识别);而谷歌这项研究就展示出构建出一个能够处理多说话人的状况的、能覆盖从天气到复杂医疗诊断等多种领域的自动语音识别模型也是可行的。

斯坦福大学的医生和研究者们已经在如何提升医生满意度方面做了许许多多的研究,而通过这种技术,谷歌大脑的研究人员们也将与他们一起合作,更多地研究自动语音识别等深度学习的技术能够如何帮助医生更好地完成文档记录过程。在一项前瞻性研究中,谷歌的研究人员正在探究能从医疗对话中提取哪些类型的医疗相关信息,以便帮医生节省使用EHR系统的时间。这项研究是完全经过病人同意的,并且为了保护病人的隐私,录音的内容也是无法追踪到病人身份的。

谷歌希望这些技术不仅能够帮助医生在每天的工作中找回医疗实践中原有的那些快乐,更能够帮助病人们获得更专注、更完善的医疗关注,最终引向更好的医疗服务。

论文简介这篇论文中介绍了作者们开发用于医疗转写的语音识别系统的经历,这个系统的功能就是自动把医生和病人间的对话自动转录为文字。为了达到这个目标,谷歌的研究人员们沿着两个思路构建了这个系统:一个是基于音素的连接性时间分类(Connectionist Temporal Classification)模型,另一个是基于字母“聆听、关注、拼写”(Listen Attend and Spell)的模型。为了训练这些模型,谷歌的研究人员们用了大约1万4千小时的匿名对话语音及转写结果作为语料。由于转写结果中有一些噪音以及对齐的问题,谷歌的研究人员们花费了相当多的精力研究如何清洗这些数据,并构造了一个用于数据分割的两步策略。

对于基于CTC的模型来说,数据清洗并构建一个对应的语言模型是成功的关键。而基于LAS的模型,谷歌的研究人员们发现它们对对齐、转写噪声都有很高的抵抗性,并且不需要使用语言模型。最终,CTC模型可以达到20.1%的单词错误率,LAS模型则可以达到18.3%。作者们的分析表明,两个模型在关键的医疗用语上都有优秀的表现,确实可以用于实际的医疗对话转写中。