您现在的位置是:主页 > 医疗电子 >


基于人工智能的正位 DR 胸片质控体系研究与应用

2020-02-13 18:13医疗电子 人已围观

简介医疗事业关乎人民的生命健康,利用好庞大的医疗数据对提高医疗服务水平至关重要。目前, 医疗数据应用中仍然存在着很多问题,例如:数据类型多种多样,包括图、文、视频、磁等...

  医疗事业关乎人民的生命健康,利用好庞大的医疗数据对提高医疗服务水平至关重要。目前, 医疗数据应用中仍然存在着很多问题,例如:数据类型多种多样,包括图、文、视频、磁等;由于使用 的设备不同,数据的质量存在较大差异;数据呈现波动特征,随时间和特定事件变化;由于个体存在差异,病症的规律没有普遍适用性等。医学影像是医疗数据中十分重要的组成部分,其质量好坏直接影响着临床诊断和治疗。建立有效的图像质量评价机制,对于临床医学图像处理技术具有重大的应用价值。在图像质量评价领域中,实现图像质量评估的核心点是提取出能反映图像某种特性的特征。 图像质量的评价就是指采用特征提取的方法对图像质量进行测度,评价图像是否符合相应的标准。
  
  目前国内外针对 X 射线、直接数字平板 X 线成像系统(digital radiography,DR)、计算机体层摄影( computed tomography, CT)和磁共振成像(magnetic resonance imaging,MRI)等各类型医学影像,已建立了一套社会公认的医学影像质量标准 评价体系和方法,这些质控标准都是国内外医生和 相关专家们经过长期的临床经验总结出来的,且具 有信息覆盖全面、合理可行等特点。但是,这些质控标准的实际执行过程只停留在人工参考的层面, 并没有通过计算机算法将这些标准进行量化和智能质控,从而达到真正意义上的辅助拍片效果。因 此本研究拟提出具有辅助拍片功能的智能质控系统,对于医疗影像质量的评价和医疗诊断质量的提 高都将具有重要意义。
  
  自 2006 年起,深度学习就作为机器学习领域的一个分支出现在人们的视野中,它是一种使用多层复杂结构或由多重非线性变换构成的多个处 理层进行数据处理的方法。近年来,深度学习在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域取得了突破性进展。本文研究 重点是制定合理可行的胸部正位 DR 医学影像质控标准,并结合对深度学习领域中的医疗图像分割算法、图像分类算法和传统图像处理算法的研究,最终实现对正位 DR 胸片的质量评价与控制。本文使用 U-Net 图像分割模型实现目标区域分割,该模型在其他医学图像分割领域取得过优秀的成绩;同 时使用 Inception-V4 模型实现图像分类,该模型以其优秀的模块结构和高效性得到了广泛应用。
  

  1 质控体系架构设计

  
  根据本文的研究思路,结合实际应用情况,总结出的质控体系架构设计路线如图 1、图 2、图 3 所示。
图1 正位DR数据筛选及区域分割流程
  图1 正位DR数据筛选及区域分割流程
 
  如图 1 所示,首先筛选出本文要研究的正位DR 胸片,然后使用深度学习图像分割模型对左右肺野区域、左右锁骨区域和左右肩胛骨区域进行分割,便于进一步的深度学习分类模型研究和传统图像处理算法研究。
图 2 深度学习分类模型对异物的判断流程
  图 2 深度学习分类模型对异物的判断流程
 
  如图 2 所示,依次使用了两个深度学习分类模型。首先使用深度学习四分类器实现了异物类型 的判断,然后使用深度学习二分类器对体外异物的位置做出了判断。
图 3     图像处理算法对拍片摆位的判断流程
  图 3  图像处理算法对拍片摆位的判断流程
 
  如图 3 所示,使用传统图像处理算法分别对耸肩倾角、体位偏移量和肩胛骨重合度进行计算,提供了对拍摄体位判断的量化依据。
  

  2 研究方法

  
  2.1研究模块
  
  本文研究模块包括:① 脱敏处理的正位 DR 医学影像(本研究中使用的所有数据均是对个人敏 感信息过滤处理后的纯医学影像)数据收集;② 使用标注工具对研究区域轮廓进行手动标注;③ 使用 U-Net 分割模型对 DR 正位胸片的左右肺野、左右锁骨、左右肩胛骨等六个区域进行分割;④ 使用卷积神经网络( convolutional neural networks,CNN)模型针对特定数据进行有效 分类判断,模块如图 4 所示。
图 4  医学影像质控体系研究方法模块图
  图 4  医学影像质控体系研究方法模块图
 
  2.2正位 DR 胸片数据质量评价控制标准
  
  本次正位 DR 医学影像质控体系研究过程中的首要核心任务为确定一套科学可行的质控评 价标准,经过不断实验测试和改进,最终确定并使用的正位 DR 胸片数据质量评价控制标准如图 5 所示。
图 5  质控标准信息统计
  图 5  质控标准信息统计
 
  图 5  中的质控标准信息主要包括:异物、体位规范和肩胛骨摆位规范,且质控标准点都是技师在拍片过程中主要关注的评判点,只有当拍片质量都符合这些标准,医生在阅片过程中才能做出更加精确的诊断。此外,这些质控标准点都可以用相应的深度学习算法和图像处理算法完成和实现,可行性较高且准确率良好。
  
  2.3正位 DR 胸片数据收集与标注
  
  2.3.1数据收集 从四川大学华西医院放射科收集了 6 770 位受检者的正位 DR 胸片,收集到的数据包括:优片、体外异物、体内异物、锁骨耸肩、 体位不正、肩胛骨摆位不正等各类情况,且部分受检者同时存在以上中多种情况;此外,由于体内 异物的情况很少存在,因此通过手动制作扩充体内 异物数据 500 张,使数据集总数达到 7 270 张。各类别正位 DR 医学影像具体数量为:2 300 张优片、2 000 张体外异物、1 000 张体内异物、850 张耸肩、1 250 张体位偏移、1 500 张肩胛骨摆位不正。
图 6   正位 DR 胸片影像标注效果展示
  图 6   正位 DR 胸片影像标注效果展示
 
  2.3.2数据标注 作者团队和华西医院放射科技师严格围绕制定的质控标准,使用标注工具对数据中的研究区域进行标注,标注编号依次代表:① 左肺野;② 右肺野;③ 左锁骨;④ 右锁骨;⑤ 左肩胛骨;⑥ 右肩胛骨(此处标注的左右是指图像显示的左右,与实际人体结构方位相反,但不影响最终智能评片结果),标注效果如图 6 所示。
  
  2.4正位 DR 胸片分割流程
  
  2.4.1数据集准备 首先,将标注工具生成的 json文件解析为可用的数据集;然后,制作模型可用的数据集,用于训练和测试分割模型的各类数据共6 200 张,其中训练过程中的数据量为 6 000 张,手动测试集为 200 张,并按照分割模型需要的数据存放规则对训练集和测试集进行分类归档。
  
  2.4.2深度学习分割模型选择 近些年,随着深度学习领域的图像分类模型、分割模型在图像处理方面的不断拓新和应用,诞生出了一系列优秀的图像分割模型,对于图像的分析不仅限于图像的灰度值信息和边缘信息,而是深入研究图像更深层次的局部抽象信息,对于图像特征信息有了更全面的提取和分析。
  
  目前,深度学习图像分割领域已经诞生了一些表现优秀的图像分割网络模型,如全卷积神经网络(fully convolutional networks,FCN)分割网络模型、Mask RCNN 目标分割模型和 U-Net 分割模型等。这些模型都有各自的特点,并均在特定 领域取得过突出的成绩。
  
  本研究使用的是 U-Net 分割模型,该网络是一个基于 CNN 的图像分割网络,主要用于医学图像分割,依靠数据增强可以让标注数据得到更为有效的使用。网络最初提出时是用于细胞壁分割,之后在肺结节检测以及眼底视网膜图像的血管提取等 方面都有着出色的表现。该分割模型网络由收缩 路径和扩张路径组成。其中,收缩路径用于获取上下文信息,扩张路径用于精确的定位,且两条路径相互对称。该网络能够采用极少图像端对端进行 训练,运行速度非常快,在图形处理器(graphics processing unit,GPU)上分割一张 512 × 512 的图像不到一秒即可完成。
  
  2.4.3模型训练和测试效果 使用 U-Net 分割模型
  
  针对三个不同部位的六个区域分别进行模型训练, 通过不断测试和调参,调试出符合各自部位的最优模型,针对优片的肺野区域、锁骨区域、肩胛骨区域等六个区域的图像分割测试效果如图 7 所示。
图 7  肺野区域、锁骨区域、肩胛骨区域分割效果
  图 7  肺野区域、锁骨区域、肩胛骨区域分割效果
 
  本次研究通过控制不同参数的大小对 6 000 张正位 DR 胸片进行模型训练,在模型训练前,模型会自动按照参数设定的 9∶1 数据比例分布,随机抽取数据分别组成训练集和验证集,即训练集数据量为 5 400 张,验证集为 600 张。可控参数包括:
  
  ① N_subimgs:训练样本数量;② N_epochs:训练次数;③ batch_size:单批训练样本数;④ IMG_WIDTH、IMG_HEIGHT:训练样本图像的宽度和高度;⑤ stride_height、stride_width:池化矩阵移动纵向横向步长;⑥ One_time:单次训练时间;⑦ AUC:曲线下面积,即受试者操作特征
(receiver operating characteristic,ROC)曲线下与坐标轴围成的面积;⑧ Accuracy:模型准确率。测试得到的实验结果如表 1 所示。
表 1 肺野区域、锁骨区域、肩胛骨区域分割模型参数调试表
  表 1 肺野区域、锁骨区域、肩胛骨区域分割模型参数调试表
 
  通过对异物分类模型中各项参数进行调节,使用模型中验证集对模型准确率的自动测试发现,当 参数 N_subimgs = 1 800、N_epochs = 50、batch_size = 2、IMG_WIDTH = 1 024、IMG_HEIGHT = 1 024、stride_height = 30、stride_width = 30 时,肺野和锁骨的分割精度均最高。当其他参数保持不变, IMG_WIDTH = 512、IMG_HEIGHT = 512 时,肩胛骨的分割精度最高。各区域的分割准确率依次可 以达到:肺野为 0.934 6、锁骨为 0.922 5、肩胛骨为0.901 8。
  
  随机使用 200 张测试数据对训练好的分割模型进行手动测试,对分割出来的实际效果与原手工标 注的轮廓进行重合度分析,同时根据评片主观经验 进行分析,发现该分割模型的效果基本符合要求, 针对一些多余或者残缺的错误可以通过传统图像后处理算法进行填充修补和消除,从而不断优化 模型。
  
  2.5肺野部位的 CNN 分类模型研究与实现
  
  2.5.1分类模型网络选择 Inception 网络是 CNN 分类器进化过程中很重要的里程碑,在其诞生之前,大部分 CNN 网络仅仅是不断增加网络深度以期望得到更佳的分类识别效果,但这样做只会成倍增加网络参数,降低计算效率。Inception 网络最大的创新之处是使用了 Inception 模块实现了一种具有优良局部拓扑结构的网络,即对输入图像并行地执行多个 1 × 1、3 × 3 或 5 × 5 等不同尺寸的卷积运算或池化操作,通过增加网络深度和宽度,从而获取图像的不同细节信息,并将所有输出结果拼接为一个非常深的特征图。
  
  本研究使用的是 Inception-V4 网络,其网络架构可以用很低的计算成本达到很高的性能,其设计主要沿用了之前 V2、V3 中提到的 CNN 网络设计原则。Google team 将 V4 网络执行迁移到了tensorflow 上来执行,因此可不必再像之前在DistBelief 上那样,受限于他们所用系统的内存较小、计算量大等局限而只在几种可行的范围里选择Inception 通用模块。简单地说就是利用 tensorflow 天生的并行性,设计数据并行(data parallel)与模型并行(model parallel)的网络。
  
  2.5.2主要研究点的分类模型测试结果及分析
  
  (1)判断正位 DR 胸片的异物类型:技师在DR 拍片过程中经常能观察到一些异物,会在整体或局部影响到医生的诊断,甚至导致误诊。其中, 体内异物是无法避免的情况,常见的有心脏起搏 器、胸腔肋骨固定夹和脊椎固定架,本模型可 以自动检测出体内异物,有效帮助技师再次确认是 否存在体内异物,可以有效防止这类异物造成的误 诊。体外异物则是应避免的情况,常见的有内衣、金属佩戴物等,这类异物形态特征多样,很容易和某些疾病混淆或者遮挡住某些疾病特征,导致医生 的误诊、漏诊。本模型可以有效检测出体外异物, 节约时间成本和医疗资源。
  
  本次研究通过控制不同参数的大小对 3 050 张正位 DR 胸片进行模型训练,其中无异物数据量1 300 张,体外异物数据量 800 张,体内异物数据量500 张,体内外均有异物数据量 450 张。在模型训练前,模型会自动按照参数设定的 9∶1 数据比例分布,随机从每个类别中抽取数据分别组成训练集和验证集,即训练集数据量为 2 745 张,验证集为305 张。模型中对验证集数据测试得到的实验结果如表 2 所示。
表 2 异物分类模型参数调试表
  表 2 异物分类模型参数调试表
 
  通过对异物分类模型中各项参数进行调节,使用模型中验证集对模型准确率的自动测试发现,当 参数N_subimgs = 2 515、N_epochs = 80、batch_size = 5、IMG_WIDTH = 1 024、IMG_HEIGHT = 1 024、stride_height = 30、stride_width = 30 时,判断正位DR 胸片中异物类型的四分类器的分类准确率相对最高,可以达到 0.926 5。
  
  随机使用 200 张各类别测试数据对训练好的模型进行手动测试,对识别到的实际效果与初始分类好的数据库进行对比分析,同时根据评片事实经验进行分析,结论为该分类模型的效果基本符合要求。其中,模型对体外异物和心脏起搏器的检测准确率较高,但是对胸腔肋骨固定夹、脊椎固定架等异物检测率较低,这是由于固定夹这类异物的特征和周围骨头的特征相近以及数据量少等原因 所致。
图 8     异物测试例图
  图 8  异物测试例图
 
  图 8 所示为使用训练好的 Inception-V4 分类模型在 web server 界面上展示的一次对有体外异物的正位 DR 胸片影像的识别测试案例。操作方法简单,只需要打开模型测试生成的对应链接,从本地数据库或云端数据库选取要测试的胸片,就可以迅速得到测试结果。通过本分类模型测试,结果显示体外异物的概率识别最大,概率值为 0.856,而无异物和体内异物的概率均小于体外异物的概率。
  
  (2)判断体外异物的位置:根据拍片需求,进 一步判断体外异物的位置在肺野区域内部或肺野 区域外部。经过第(1)步中的分析,已经可以判断出是体外异物还是体内异物,而体内异物是在拍摄过程中无法规避的研究点,因此不做进一步详细研究。但是,体外异物因特征形态多样,对诊断影响较大,因此需要进一步研究。
  
  通常情况下,拍摄正位 DR 胸片主要是为了诊断肺野内部组织,肺野内部的异物对诊断影响更大;而肺野外部一般不是诊断主要区域,对诊断的影响不是很大。因此,分析体外异物的位置对医生诊断很有帮助。
  
  本次研究通过控制不同参数的大小对 1 881 张正位 DR 胸片进行模型训练,其中异物在肺野内部的数据量 960 张,异物在肺野外部的数据量 921 张。在模型训练前,模型会自动按照参数设定的9∶1 数据比例分布,随机从每个类别中抽取数据分别组成训练集和验证集,即训练集数据量为 1 693张,验证集为 188 张。模型中对验证集数据测试得到的实验结果如表 3 所示。
表 3 体外异物位置分类模型参数调试表
  表 3 体外异物位置分类模型参数调试表
 
  通过对体外异物位置分类模型中各项参数进 行调节,使用模型中验证集对模型的准确率进行自动测试,发现当参数 N_subimgs = 1 881,N_epochs = 50,batch_size = 5,IMG_WIDTH = IMG_HEIGHT = 1 024,stride_height = stride_width = 30 时,体外异物在肺野内部区域和外部区域两种类型数据训练 出的二分类器识别精度最高,可以达到 0.923 8。
  
  随机使用 200 张各类别测试数据对训练好的模型进行手动测试,对识别到的实际效果与初始分类好的数据库进行对比分析,同时根据评片事实经验进行分析,该分类模型的效果基本符合要求。
  
  2.6锁骨、肩胛骨部位的图像处理方法研究与实现
  
  针对锁骨部位 主要研究是否耸肩、体位是否偏移。耸肩容易导致医生对患者病情的误诊和漏诊,体位偏移会从视觉上影响医生的诊断,因此在拍片过程中,有必要对这两个标准点进行控制,通过相关图像处理算法计算,正确把控拍片者的体位摆放。
  

  研究方法:

  
  (1)针对耸肩情况:如图 9 所示,获取图像中的连通域,并画出每个连通域的外接矩形框,获取每个区域的最大最小纵横坐标值,计算出两个锁骨与水平线的夹角,即代表耸肩程度,只要有一个锁骨夹角超过阈值,就可以判定为耸肩,此时系统会自动提示技师该患者耸肩,技师可以及时提醒患者。通过对数据集中全部 7 270 张图像进行锁骨倾斜角测试,统计结果如表 4 所示。
表 4 锁骨倾角统计表
  表 4 锁骨倾角统计表
 
  通过对大量数据的左右锁骨倾斜角分别进行计算,可以发现 20~30° 之间的情况最多,结合三甲医院放射科技师的拍片经验和对人体结构的科学认证,认为将耸肩阈值定为 30° 是比较合理的,超过 30° 就可以认为受检者耸肩。
  
  (2)针对体位情况:如图 9 所示,获取图像中所有连通域,并画出每个连通域的外接矩形框,这 样就可以获取每个区域的最大最小纵横坐标值,通 过计算左边锁骨最大横坐标和右边锁骨最小横坐标的平均值 a,与拍摄影像的整体横向中心点 b 进行比较,可以判断患者在拍片过程中是否有体位偏移。
图 9   锁骨区域研究方法几何展示
  图 9   锁骨区域研究方法几何展示
 
  通过对数据集全部 7 270 张图像进行体位测试,结合三甲医院放射科技师的拍片经验和对人体结构的科学认证,认为 a-b 的绝对值大小在 150 个像素点范围内,可认为体位正常;a-b 的绝对值大小超出 150 个像素点范围,则认为体位有偏移。
  
  针对肩胛骨部位 主要研究肩胛骨与肺野的重合度。技师在拍片过程中,正确的肩胛骨摆放姿势可以使肩胛骨基本投射在肺野之外。由于肩胛 骨的特征和肺野相近,如果两者重合在一起,会导致医生很难诊断重合区域的病灶,容易造成漏诊和误诊。因此,计算肩胛骨与肺野的重合率很重要,该模块可以有效协助技师在拍片的时候将重合率尽量控制在合理阈值范围内。
图 10   肩胛骨重合率研究方法
  图 10   肩胛骨重合率研究方法
 
  如图 10 所示,四张小图依次为为同一案例的正位 DR 胸片原影像、使用本研究中分割模型得到的肺野区域和肩胛骨区域,以及通过计算得到的重合区域。用重合区域面积除以肩胛骨区域面积,就得到了肩胛骨与肺野的重合率。通过对数据集中 全部 7 270 张图像进行重合率测试,发现重合率在0 至 1/3 范围内占总比为 0.295 4;重合率在 1/3 至2/3 范围内占总比为 0.517 0;重合率在 2/3 至 1 范围内占总比为 0.187 6。结合三甲医院放射科技师的拍片经验和对人体结构的科学认证,将满足这三种情况的重合率依次定义为无重合、轻度重合和严重重合。
  

  3 质控平台展示

  
  3.1质控场景流程
图 11     质控平台使用场景流程图
  图 11     质控平台使用场景流程图
 
  主要将质控场景分为四层,根据相互作用关系,各层依次为:登记工作站层、DR 设备层、影像智能质控评片一体机层和区域影像平台,具体质控流程如图 11 所示。
  
  场景流程解析:
  
  (1)基层患者在登记后,到放射科进行影像检查;
  
  (2)技师拍片完成后,将患者影像发送至正位DR 影像质控平台;
  
  (3)正位 DR 影像质控平台进行智能评片;
  
  (4)评片通过后,将影像上传至区域影像平台;
  
  (5)评片未通过,技师工作站提示技师重新拍片;
  
  (6)重拍通过后,将影像上传至区域影像平台;
  
  将所有评片数据上传至影像质控云平台,用于数据分析和教学等。
  
  3.2案例展示及分析
  
  如图 12 所示,为某位拍片受检者在医院放射科拍片现场中,通过质控智能平台的测试,得到的实际测试结果。可以看到平台界面上方为智能评片结果及原因分析展示,该框内是经过智能质控系 统测试自动生成的结果,不可在界面上进行修改, 并且智能测试结果及原因分析是严格按照图 5 中的质控标准信息统计表得到的。界面下方为专家评片结果展示,专家结合主观评片经验,并通过手动点击操作,勾选出专家认为存在问题的评片原因和胸片质量等级。
图 12   质控平台界面
  图 12   质控平台界面
 
  通过以上案例,可以看到该受检者存在体外异物,但是体外异物的位置在肺野外部,因此影响很小;体位稍微偏左;无耸肩;肩胛骨与肺野轻度 重合。综合对以上非正常原因进行考量,该胸片在通过智能评片系统测试后,评片等级为“良”,智能评片结果符合实际情况。
  

  4 总结和展望

  
  本文以四川大学华西医院放射科技师的医学影像质量主观评价为基础,通过对采集到的正位DR 胸片数据进行标注,结合深度学习图像分割模型、分类模型和传统图像处理算法,开发出了一套能实现辅助拍片功能的智能质控系统,并将该系统成功应用到了华西医院和其他市、县级医院的放射科,有效验证了该质控系统的可行性与稳定性。
  
  目前,深度学习图像处理方法在医学领域的应 用正处于发展期,未来深度学习在医疗影像领域将 会有更广阔的应用,每一项技术的成熟和突破都是 人们不断尝试、创新和完善的过程。当前,无论是计算机硬件技术还是医学摄影技术,都为深度学习 处理医学影像问题提供了很好的基础条件。当然, 虽然深度学习可以更好地辅助医生诊断诸多疾病, 在诊断环节中帮助医生快速判断,为医生提供建 议,但它并没有实现全智能,没有人类的思维, 很难代替人类医生,毕竟深度学习的研究需要依赖 大量数据样本,而对于疾病而言,其变异性往往是不可控的。因此,深度学习方式在实际应用中依然 会面临很多问题。总之,深度学习的自学习优势,使得在特征提取的同时,提升了分类效果。相信随着深度学习方法的不断成熟和完善,可以在未来的医学影像分析中为疾病诊断提供更好的辅助作用。

Tags:

标签云