Skip to main content

医学人工智能周刊6|模态无关的学习方法在医学影像以及生理信号中的评测

摘要 #

目的:建立基准测试BenchMD,用于测试模型无关的方法包括架构训练技术(例如自监督学习、预训练)在临床相关的医疗任务上的表现。简言之,就是测试最新一些通用人工智能方法在医疗任务上的表现。

BenchMD包括19个公开数据集,7种医疗数据模态,1维传感器数据、2维图片、3维扫描数据。

结果表明,没有一种与模态无关的技术在所有模态上都能实现强大的性能,基准模型有充足的改进空间。

引言 #

背景:Transformers模型和自监督学习(SSL)对标签数据需求小、能灵活运用到多种模态的数据。

问题:衡量这些进展在领域内的效果需要制定具有广度和深度的评测,以捕捉应用和模式的多样性,并通过让专家参与评测过程来确保外部有效性。

当前医疗AI领域应用时针对具体问题,通过试验选择不同的架构以及自监督学习方法,期望发展一种灵活、与模态无关无需定制化就能应用到各类问题的方法。

解决:BenchMD针对每种模态构建标准化、临床有效的评估方法,并通过专家验证;同时探索了基准数据标签不足情况和数据偏移情况下的表现;

同时,为了让BenchMD更加容易使用:

  • 易用性:新架构和任务即插即用
  • 易复现:全部使用公开数据集

结果显示医疗AI领域通用、泛化性强方法仍需继续研究。

相关工作 #

模态和数据集 #

整理了一系列高影响模态数据以及精心挑选的数据源和目标数据集,用于评估分布外 (OOD) 性能。

12-lead ECGs #

利用5秒采样频率为500Hz的12导心电数据进行7分类:正常、传导障碍、心肌肥厚、心肌梗死、缺血性ST-T改变、心房颤动/心房扑动及其他。

数据包括:

EEG #

30秒单导EEG睡眠分期任务。使用AASM睡眠分期标准:觉醒、快速眼动、非快速眼动I期、非快速眼动2期、非快速眼动3期。

数据包括:

Chest X-Rays #

使用2D灰度胸片进行单标签分类任务,包括肺不张、心脏扩大、实变、水肿和胸腔积液。

数据包括:

Mammograms #

乳腺X光检查包括患者左右乳房不同视图的2D灰度图像从1-5类BI-RADS分级。

数据包括:

Dermoscopic #

基于2D RGB皮肤图像进行单标签分类,共5类:AKIEC“(包括光化性角化病、上皮内癌和鳞状细胞癌,因为所有这些都是鳞状细胞癌的连续体)、”BCC“(基底细胞癌)、”MEL“(黑色素瘤)、”NEV“(痣)和”其他疾病“(皮肤纤维瘤等)。

数据包括:

Fundus Images #

基于2D RGB眼底图像预测糖尿病视网膜病变严重程度,基于ICDR分级共5类

数据包括:

Low Dose Computer Tomography Scans(LDCT) #

基于3D CT影像进行判断结节大小

数据包括:

实验 #

对5种技术进行评估:3种SSL算法、ImageNet预训练、从头训练,然后使用多种迁移学习方法测试在分布外(OOD)数据中性能。

网络架构 #

分别使用1D、2D和3D的embedding模块处理原始数据形成256维度的嵌入空间,不同输入维度的信息能混合。编码器使用的是标准的ViT架构。

预训练 #

三种自监督方法

  • Contrastive embedding-Mixup(e-Mix)
    • 使用一定的比例系数对原始输入嵌入加权并相加,训练编码器为混合输入产生一个向量,该向量与原始输入经过混合因子加权相加尽量相近
  • Shuffled embedding prediction(ShED)
    • 打乱一部分输入嵌入,使用带分类器的编码器来预测被扰动过的嵌入
  • MAE
    • 对输入嵌入表达进行75%的掩码,训练模型重建输入对嵌入表达

迁移学习以及分布外评价 #

固定模型骨架利用分布内数据训练一个线性分类器进行微调。然后在分布外数据集中进行zero-shot评估。微调数据集的选取,单标签任务选取,多标签任务选取。

结果 #

  • 各类自监督方法在各模态数据上表现不一致,需要探索在各模态数据中表现更加一致的SSL算法
  • SSL有时优于预训练方法,有时预训练也可以和SSL表现相当。未来需要探索在其他数据集例如imagenet中进行预训练,然后在医疗数据集中进行SSL,即预训练与自监督结合。
  • 微调过程中标化数据量影响模型性能,越多越好,但也要防止过拟合的情况发生。
  • 分布内与分布外数据模型性能比较表明需要探索提升模型可泛化性能的正则化技术

思考 #

自监督技术和预训练技术在NLP和CV领域应用广泛,如何应用到各类医疗数据中,是不是在所有种类的医疗数据中表现都比不使用要好,本文通过构建各类基准模型尝试回答该问题,相比于NLP和CV领域,医疗领域数据种类繁多导致当前没有一种统一的方法适用于所有的情形,需要进一步研究判断对各种类的数据适合使用的方法,以及预训练与自监督技术联合使用的方法。

Wantlin, K. et al. BenchMD: A Benchmark for Modality-Agnostic Learning on Medical Images and Sensors. Preprint at https://doi.org/10.48550/arXiv.2304.08486 (2023).