医疗影像是什么,医疗影像处理在做什么,医疗影像技术要往哪里去。
撰文
邱陆陆
医疗,是「死生亦大矣」层面的讨论。这个鲜少「跟风」、转变审慎到近乎迟滞的行业,领域内研究通常要落后工程技术业界五年。
而这一次深度学习的高热从自然影像蔓延到医疗影像,只用了不到两年。就算数据维度不一样、工具不能套用,研究者们还是义无反顾地跳了这个坑。这等扩散能力,可以说是堪比癌细胞了。
如今,深度学习跨领域的霸权地位,让跨领域的技术探讨变得容易——如今三百六十行里,谁也离不开「分层、激活、反向传播」三板斧。八竿子打不着的两个领域里,讨论起彼此的神经网络也是津津有味。然而医疗影像圈却总是显得格外神秘:当我们谈起医疗影像,除了知道研究对象是五脏庙,最终目的是节约医疗资源之外,仿佛不再有其他谈资。
医疗影像是什么,医疗影像处理在做什么,医疗影像技术要往哪里去。这一回,我们和体素科技创始人、第一批代表医疗影像界吃深度学习这口螃蟹的研究者,丁晓伟博士从技术层面聊了聊这「哲学三问」。
医疗影像和自然影像有什么不一样
医疗影像的特点,一言以蔽之,就是「特别大,同时特别小」。「大」体现在维数上,也体现在空间分辨率和色彩分辨率上。无论是人手一部的智能手机还是专业的单反相机,日常生活里的影像都天然是二维的,即使是深度摄像机,也只能捕捉到「2.5维」的信息:镜头与障碍物之间的直线距离变成了已知,然而中间空气的内容仍然是未知。而许多医疗影像,如CT(电脑断层扫描)与MRI(核磁共振成像),则是天然三维的,一个更学术的说法,就是三维坐标系里每一个点都有对应的像素值。在分辨率上,自然影像界标杆一样的数据集ImageNet,平均图像大小在*,一般的视觉模型会把图像处理成*后进行操作。而一张普通的2DX光片的分辨率在*左右,一组3D的CT影像维度则在**左右。
同时,一张8位色的自然图像有阶,而一张CT影像则有上万阶。这还只是「普通」的医疗影像,至于动辄50G一张的病理图片,在医疗影像界也是屡见不鲜。
有人会说,图像大有什么要紧,压缩不就行了?然而自年伦琴发现X光以来,无数医学影像学的工程师与医生穷极职业生涯之力,只为用有限的辐射剂量提供尽可能清晰的影像,力求辅助医生进行更为精确的诊断。每个像素的信息都得来不易,又岂能轻易放弃。
所以,医疗影像模型,还没开始就注定比其他视觉模型难上一个数量级。
既然医疗影像天生就是3D影像,所以使用3D模型而不是2D模型解决问题,听起来似乎是一个理所当然的选项?
其实不尽然。以丁晓伟为代表的第一批将深度学习引入医疗影像的研究者从年开始做3D深度学习模型,但是直到今天,在解决3D医疗影像问题上,「2D和3D模型各有优劣,哪种更有效仍然没有定论」。
3D模型的优点和缺点一样明显。医疗影像问题本身无疑是3D问题,病人是3D的病人,病灶是3D的病灶,2D截面是会破坏其空间延续性、损失3D空间信息量的。一个肿瘤的截面和一个一个血管的横截面,在像素和特征角度都没有任何区别,理论上无法区分开,可只要你上下看一看,蜿蜒的血管和球状的肿瘤就一目了然了。然而,3D模型也没有成熟的、经过验证的结构。选择了3D模型就选择了在知识的荒野里开疆辟土,没有先人证明可行的结构,更不用说经过预训练的参数设置,一切都要从头做起。
而且3D模型本身也是一个庞然大物。卷积神经网络(CNN)的高效之处在于它利用了小的卷积核(kernel)来大幅减少需要优化的参数的数量,例如一个4*4大小的卷积核只需要对16个参数进行优化。但是3D模型一下子就把需要优化的参数数量做了指数升级,一个4*4*4的卷积核就有64个需要优化的参数,随之而来的是过拟合(overfitting)风险的急剧升高,难易训练出泛化(generalization)效果良好的模型。
因此也有研究者试图另辟蹊径,在2D空间里找一些技巧来引入3D信息:比如把5张横截面影像叠在一起,以一个堆(stack)的形式作为模型的输入。而3D模型的研究者也想尽办法把图像做聪明的切割和重组。
迄今为止,两种思路打了个平手。谁也没有明显的优势。
但是体素仍然选择了3D模型。「也是一个风险很大的探索过程吧。我的个人风格是不太喜欢从工程角度取巧,问题是什么样,模型就应该是什么样。」而面对3D模型没有通用数据集、没有预训练模型的弱点,体素的答案也很简单:自己做。「我们想做医疗影像界的ImageNet。」,丁晓伟说,「我们想把人的各种结构、各类常见病种病理全部交给一个统一模型(unifiedmodel),让模型首先对影像里『有什么』有一个概念,然后再针对具体的应用开发精校的模型。」
「小」体现在
转载请注明:http://www.0431gb208.com/sjszjzl/4200.html