Science 发文，随着人工智能走向多模态，医疗应用倍增-技术圈

   
   
    
    
     
     
      
      
       
       
        
         来源：ScienceAI 
        
       
       
      
      
     
     
    
    
   
   
   
   
    
    
     
     
      
      
       
       
        
         本文约2100字，建议阅读5分钟 
        
        
         近日，美国斯克里普斯研究所（Scripps Research）的基因组学主任兼教授 Eric Topol 在《Science》发表了题为《As artificial intelligence goes multimodal, medical applications multiply》的观点文章。

论文链接：

https://www.science.org/doi/full/10.1126/science.adk6139

机器没有眼睛？但如果你遵循深度学习模型的进展来准确解释医学图像，你就会知道。

在过去的几年里，大量的研究不断证明「机器眼」的力量有多么强大，不仅可以与医学专家相比，而且可以检测人类不易辨别的医学图像中的特征。例如，视网膜扫描包含人类无法看到的丰富信息，但机器可以，为人类生理学的多个方面提供了一个入口，包括血压、血糖控制、帕金森氏症、阿尔茨海默氏症、肾脏和肝胆疾病的风险以及心脏病发作和中风的可能性。

作为一名心脏病专家，不会想到心电图的机器解读会提供有关个人年龄、性别、贫血、患糖尿病或心律失常的风险、心脏功能和瓣膜疾病、肾脏或甲状腺疾病的信息。同样，将深度学习应用于肿瘤组织的病理切片也可以提供有关起源位点、驱动突变、结构基因组变异和预后的见解。

尽管这些用于医学图像解读的机器视觉功能可能看起来令人印象深刻，但它们预示着 AI 改变医学的潜在更广阔的领域。未来的重大转变是能够超越狭隘的单模态任务（仅限于图像），并扩大机器功能以包括文本和语音，涵盖所有输入模态，为多模态 AI 奠定基础。

尽管图像解释方面的大部分进展都归功于监督学习，这需要完全注释的输入和基本事实，但发展到多模态 AI 的一个主要要求是使用自监督和无监督的学习形式。这取代了对数据注释的繁重需求，而这种需求在大规模输入下是不可能实现的，正如大型语言模型（LLM）所见。

但实现 ChatGPT 等 LLM 所需的不仅仅是学习类型的差异或大量输入。这需要 Vaswani 及其同事于 2017 年推出的一种称为 Transformer 的新模型架构，超越依赖从一个时间步到下一个时间步（如句子中的每个单词）的反馈的循环神经网络，以包含所有数据（例如，句子中的所有单词）。这些 LLM 的进展最终导致了 GPT-4，它是多模态的，因此能够处理所有形式的数据，包括文本、音频、语音和图像。值得注意的是，GPT-4 和当今其他主要基础模型（例如 Bard、LLaMa 和 PALM-2）的输入均来自维基百科、互联网和成千上万的书籍。没有用于训练的特定医疗数据，这需要监督微调。

Transformer 模型架构图。（来源：arXiv）

现在，LLM 是多模态的，不再仅限于文本输入和输出，它们的名字应该被认为是用词不当——就像「生成 AI」一样，因为这些模型在生成之外的许多其他功能上表现出色，例如编辑文本。无法准确命名这些模型反映了它们广泛的功能，当考虑它们在医学中的用例时，这一概念进一步得到强调。

Transformer 模型具有在医学中执行多模态 AI 的新功能，可以实时分析一个人的多层大数据和我们的知识库。许多隐藏在每个人独特性之下的高维数据现在都可以被捕获。这些层包括通过成像的解剖学，通过传感器的生理学生物标志物，基因组，微生物组，代谢组，免疫组，细胞水平转录组，蛋白质组和表观基因组。包含实验室结果、家族史、非结构化文本和个人纵向随访的电子健康记录数据也是丰富的数据来源。

这种多模态 AI 具有广泛的数据驱动应用的潜力。对于有患慢性疾病风险的人，虚拟健康助理可以经常提供有关他们数据的反馈，以实现预防或更好地管理已有疾病。以一个患有高血压和糖尿病的人为例，他患心脏病的多基因风险评分很高。虚拟助手不仅可以帮助患者控制血压和血糖，减少这些可改变的风险因素，还可以根据患者的身体活动、睡眠、压力、视网膜照片、医疗记录中的非结构化文本和最新医学文献，对患者进行分析和指导。目前已经有针对糖尿病、高血压、肥胖和抑郁症等特定疾病的虚拟 AI 聊天机器人健康助手，但还没有一个能做到全面或预防。

个人的多模态数据也可以使远程监测成为现实，从而实现相当于重症监护病房的连续生命体征采集的「居家医院」。经过验证的算法可以在任何症状出现之前准确地预见到一个人的恶化迹象，并且需要进行干预，无论是远程还是派遣医务人员，许多患者将来都可以避免住院。多模态 AI 还有其他几个用例，例如数字孪生，通过提供数字传真，可以为患有新诊断的人提供信息，从而找到成功的治疗方法。另一个应用是流行病监测，通过地理定位、可穿戴传感器、症状、疫苗接种状况、废水结果和其他数据层进行个性化的时空实时风险评估。

流行病监测。（来源：nature）

尽管早期医疗保健领域的 LLM 应用受到了很多关注，例如，通过美国医疗执照考试的能力，为患者提供医疗问题的答案，或者通过与患者对话的自然语言处理减轻临床医生的文书负担，多模态 AI 是一个更深层次的分析挑战。到目前为止，已经整合了几层数据，例如电子健康记录和基因组学，但还没有达到相关和分析的复杂性、深度和广度。要实现多模态 AI 在医学领域的非凡潜力，这是一个相当大的持续挑战。

除了分析障碍之外，还有许多其他障碍。LLM 通常会对自己的回答过于自信，这是「经常错误，从不怀疑」的特点。除了 LLM 的胡言乱语的倾向之外，还存在固有的偏见、对数据隐私和安全的担忧、模型性能随着时间的推移可能恶化、对监管批准理由的质疑、医疗实践对变革的抵制、需要令人信服的前瞻性证据来证明益处等问题。

尽管如此，前所未有的大规模计算能力和对大量人类数据的自监督学习的融合，为以前无法实现的医疗应用奠定了基础。未来几年，医学 LLM 的多能性可能会催生虚拟健康助理和家庭医院，提供高度准确和个性化的医疗保健方法。

编辑：文婧