网络结构设计(网络结构设计包括)

本文共5400字。建议阅读15分钟。在使用细胞神经网络进行图像语义分割时,网络结构有一些创新,主要包括新的神经架构和新组件或层的设计。文章后半部分梳理了网络结构

本文共5400字。建议阅读15分钟。

在使用细胞神经网络进行图像语义分割时,网络结构有一些创新,主要包括新的神经架构和新组件或层的设计。文章后半部分梳理了网络结构设计在医学图像分割领域的应用。

总结了细胞神经网络用于图像语义分割时网络结构的创新。这些创新主要包括新神经架构(不同深度、宽度、连接和拓扑)的设计和新组件或层的设计。前者是利用现有组件组装复杂的大规模网络,后者更倾向于设计底层组件。首先介绍了一些经典的语义分割网络及其创新点,然后介绍了网络结构设计在医学图像分割领域的一些应用。

1.图像语义分割网络结构创新。

1.1 FCN网络

网络结构设计(网络结构设计包括)插图

FCN总体架构图

FCN网络被单独列出,因为它是第一个从全新的角度解决语义分割问题的网络。以前基于神经网络的图像语义分割网络是以待分类像素为中心的图像块来预测中心像素的标号。通常采用CNN+FC策略来构建网络。显然,这种方法不能利用图像的全局上下文信息,并且每像素的推理速度很低。然而,FCN网络放弃了全连接层FC,而使用卷积层来构建网络。通过转置卷积,融合不同层的特征,网络的输出直接就是输入图像的预测掩膜,效率和精度大大提高。

网络结构设计(网络结构设计包括)插图(1)

FCS中不同层次的特征融合示意图

创新:全卷网络(不含fc层);去卷积deconv(去卷积);不同图层特征图的跳转连接(添加)

1.2编解码器结构(编码器-解码器)

SegNet和FCN网络的思路基本一致。编码器部分使用VGG16的前13层卷积,不同点在于Decoder部分Upsampling的方式。FCN通过将特征图deconv得到的结果与编码器对应大小的特征图相加得到上采样结果;而SegNet用Encoder部分maxpool的索引进行Decoder部分的上采样(原文描述:the decoder upsamples the lower resolution input feature maps. Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling.)。

创新:编码器-解码器结构;汇集指数.

网络结构设计(网络结构设计包括)插图(2)

SegNet网络

网络结构设计(网络结构设计包括)插图(3)

SegNet与FCN上采样模式的比较

U-Net网络最初是针对生物医学图像设计的,但由于其初四的性能,现如今UNet及其变体已经广泛应用到CV各个子领域。UNet网络由U通道和短接通道(skip-connection)组成,U通道类似于SegNet的编解码结构,其中编码部分(contracting path)进行特征提取和捕获上下文信息,解码部分(expanding path)用解码特征图来预测像素标签。短接通道提高了模型精度并解决了梯度消失问题,特别要注意的是短接通道特征图与上采用特征图是拼接而不是相加(不同于FCN)。

创新:U型结构;跳跃连接

网络结构设计(网络结构设计包括)插图(4)

U-Net网络

V-Net网络结构与U-Net类似,不同在于该架构增加了跳跃连接,并用3D操作物替换了2D操作以处理3D图像(volumetric image)。并且针对广泛使用的细分指标(如Dice)进行优化。

网络结构设计(网络结构设计包括)插图(5)

虚拟网络

创新:相当于U-Net网络的3D版。

FC-DenseNet (百层提拉米苏网络)(paper title: The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation)该网络结构是由用密集连接块(Dense Block)和UNet架构组建的。该网络最简单的版本是由向下过渡的两个下采样路径和向上过渡的两个上采样路径组成。且同样包含两个水平跳跃连接,将来自下采样路径的特征图与上采样路径中的相应特征图拼接在一起。上采样路径和下采样路径中的连接模式不完全同:下采样路径中,每个密集块外有一条跳跃拼接通路,从而导致特征图数量的线性增长,而在上采样路径中没有此操作。(多说一句,这个网络的简称可以是Dense Unet,但是有一篇论文叫Fully Dense UNet for 2D Sparse Photoacoustic Tomography Artifact Removal, 是一个光声成像去伪影的论文,我看到过好多博客引用这篇论文里面的插图来谈语义分割,根本就不是一码事好么 =_=||,自己能分清即可。)

网络结构设计(网络结构设计包括)插图(6)

FC-DenseNet (100层提拉米苏网络)

创新:DenseNet和U-Net网络的整合(从信息交换的角度来看,密集连接确实强于剩余结构)

Deeplab系列网络是在编解码结构的基础上提出的改进版本,2018年DeeplabV3+网络在VOC2012和Cityscapes数据集上的表现优异,达到SOTA水平。DeepLab系列共有V1、V2、V3和V3+共四篇论文。简要总结一些各篇论文的核心内容:

1) DeepLabV1:卷积神经网络和概率图模型:CNN+CRF相结合,提高分割定位精度;

网络结构设计(网络结构设计包括)插图(7)

2) Deeplabv2: ASPP(扩张间金字塔池空);CNN+CRF

网络结构设计(网络结构设计包括)插图(8)

网络结构设计(网络结构设计包括)插图(9)

3) DeepalBV3:改进ASPP,增加1*1卷积和全局avg池;比较了级联和平行空孔卷积的效果。

网络结构设计(网络结构设计包括)插图(10)

级联空孔卷积

网络结构设计(网络结构设计包括)插图(11)

平行空孔卷积(ASPP)

4) DEPLABV3+:加入编解码架构的思想,增加一个解码器模块,扩展deplab v3;将深度可分离卷积应用于ASPP和解码器模块;使用改进的异常作为主干。

网络结构设计(网络结构设计包括)插图(12)

DeepLabV3+

总的来说,DeepLab系列的核心贡献:空孔卷积;ASPP;CNN+CRF(只有V1和V2用CRF,应该是V3和V3+通过深网解决了分割边界模糊的问题,效果比加CRF好)

PSPNet(pyramid scene parsing network)通过对不同区域的上下文信息进行聚合,提升了网络利用全局上下文信息的能力。在SPPNet,金字塔池化生成的不同层次的特征图最终被flatten并concate起来,再送入全连接层以进行分类,消除了CNN要求图像分类输入大小固定的限制。而在PSPNet中,使用的策略是:poolling-conv-upsample,然后拼接得到特征图,然后进行标签预测。

网络结构设计(网络结构设计包括)插图(13)

Net网络

创新:多尺度池化,更好地利用全局图像层面的先验知识理解复杂场景。

RefineNet通过细化中间激活映射并分层地将其连接到结合多尺度激活,同时防止锐度损失。网络由独立的Refine模块组成,每个Refine模块由三个主要模块组成,即:剩余卷积单元(RCU),多分辨率融合(MRF)和链剩余池(CRP)。整体结构有点类似U-Net,但在跳跃连接处设计了新的组合方式(不是简单的concat)。个人认为,这种结构其实非常适合作为自己网络设计的思路,可以加入许多其他CV问题中使用的CNN module,而且以U-Net为整体框架,效果不会太差。

网络结构设计(网络结构设计包括)插图(14)

RefineNet网络

创新:改进模块

1.3减少计算复杂的网络结构。

也有许多努力来降低语义分割网络的计算复杂度。简化深层网络结构的一些方法:张量分解;渠道/网络修剪;稀疏连接。还有一些结构是用NAS(神经架构搜索)代替人工设计来搜索模块或者整个网络。当然,AutoDL所需的GPU资源会让一大批人望而却步。因此,一些人使用随机搜索来搜索小得多的ASPP模块,然后基于小模块构建整个网络模型。

轻量级网络设计是业内共识,不可能每台机器都配一个2080ti进行移动部署。此外,功耗和存储等问题也会限制该模型的推广应用。但是如果5G能够普及,所有的数据都可以在云端处理,那将会非常有趣。当然,短期(十年)内,不知道5G的全方位部署是否可行。

1.4基于注意机制的网络结构

注意机制可以定义为:利用后续的图层/特征地图信息,选择并定位输入特征地图中最具判断性(或显著性)的部分。简单来说,可以认为是对特征图进行加权的一种方式(权重由网络计算)。根据加权方式的不同,可以分为通道注意机制(CA)和空交互注意机制(PA)。FPA(特征金字塔注意)网络是一种基于注意机制的语义分割网络,将注意机制与空之间的金字塔相结合,提取精确特征进行像素级标记,而不是使用扩展卷积和人工设计的解码器网络。

1.5基于对抗学习的网络结构

2014年,Goodfellow等人提出了一种对抗的方法来学习深度生成模型。在世代对抗网络(GANs)中,需要同时训练两个模型:捕捉数据分布的世代模型G和估计样本来自训练数据的概率的判别模型D。

G是一个生成式的网络,它接收一个随机的噪声z(随机数),通过这个噪声生成图像。D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x(一张图片),输出D(x)代表x为真实图片的概率,如果为1,就代表100%是真实的图片,而输出为0,就代表不可能是真实的图片。

g的训练程序是最大化D出错的概率。可以证明任意函数G与D的空之间存在唯一解,使得G可以重现训练数据分布,而D=0.5。在训练过程中,生成网络G的目标是生成尽可能真实的图片来欺骗和辨别网络D,而D的目标是试图将G生成的虚假图像与真实图像区分开来。这样G和D就构成了一个动态的“博弈过程”,最终的均衡点就是纳什均衡点。当G和D由神经网络定义时,整个系统可以通过反向传播进行训练。

网络结构设计(网络结构设计包括)插图(15)

GANs网络结构示意图

受GANs的启发,Luc等人训练了一个语义切分网络(G)和一个对抗网络(D)。对抗网络将分割图与基本事实或语义分割网络(G)区分开。g和D在不断地从博弈中学习,他们的损失函数定义为:

网络结构设计(网络结构设计包括)插图(16)

甘斯损失函数

以及分割网络(g)和对手网络(d)的参数。和分别是多类和两类交叉熵损失,这两部分共同构成网络的损失函数。

回头看看最初的GAN损失函数:

甘斯的损失函数体现了零和博弈的思想。GANs的原始损失函数如下:

网络结构设计(网络结构设计包括)插图(17)

损失的计算位置在D(鉴别器)的输出,D的输出一般是真假判断,所以可以整体考虑采用二值交叉熵函数。根据GANs的损失函数形式,训练分为两部分:

首先是maxD部分,因为训练一般是先保持G(生成器)不变来训练D。D的训练目标是正确区分假/真。如果我们用1/0表示真/假,我们期望D(x)对第一项E趋近于1,因为输入是从真实数据中采样的,即第一项较大。同理,第二个e输入对G产生的数据进行采样,所以我们预期D(G(z))趋近于0更好,也就是说第二项更大。所以这部分就是让整体变大的期望训练,这就是maxD的意义。这部分只更新d的参数。

第二部分,保持D不变(不更新参数),训练g,此时只有第二项E有用。钥匙来了。因为要混淆D,所以把label设为1(我们知道是假的,所以叫混淆)。希望D(G(z))的输出最好接近1,也就是这一项越小越好。这是明。当然鉴别器也不是那么好糊弄的,所以这个时候鉴别器会产生一个比较大的误差,误差会更新G,然后G会变好。这次没骗你,下次只能更努力了(引自https://www . cn blogs . com/Walter-xh/p/10051634 . html)。此时,只更新G的参数。

从另一个角度看GANs,鉴别器(D)相当于一个特殊的损失函数(由神经网络组成,不同于传统的损失函数如L1、L2、交叉熵等)。

另外,GANs训练方法比较特殊,存在梯度消失、模式崩溃等问题(目前似乎有办法解决),但其设计思路确实是深度学习时代的一大发明。

1.6摘要

基于深度学习的图像语义分割模型大多遵循编解码架构,如U-Net。最近的研究结果表明,扩展卷积和特征金字塔池可以提高U网型网络的性能。在第二节中,我们总结了如何应用这些方法和他们的变种医学图像分割。

2.网络结构创新在医学图像分割中的应用。

介绍了网络结构创新在2D/三维医学图像分割中应用的一些研究成果。

2.1基于模型压缩的分割方法

为了实现高分辨率2D/三维医学图像(如CT、MRI和组织病理学图像等)的实时处理。),研究人员提出了各种压缩模型的方法。Weng等人将NAS技术应用于U-Net网络,得到了一个在CT、MRI、超声图像中器官/肿瘤分割性能更好的小网络。Brugger通过使用组规范化和Leaky-ReLU(leaky ReLU函数)重新设计了U-Net架构,使网络在存储3D医学图像时更加高效。也有人设计了参数较少的扩展卷积模块。模型压缩的其他方法包括权重量化(16位、8位、二进制量化)、提取、剪枝等。

2.2编解码结构的划分方法

Drozdal提出了在将图像送入分割网络之前,使用简单的CNN对原始输入图像进行归一化的方法,提高了单显微镜图像分割、肝脏CT和前列腺MRI的分割精度。顾提出了一种通过扩展卷积来保持骨干网上下文信息的方法。沃龙佐夫提出了图对图的网络框架,将有ROI的图像转化为无ROI的图像(例如,有肿瘤的图像转化为无肿瘤的健康图像),然后将从模型中去除的肿瘤添加到新的健康图像中,从而获得对象的详细结构。周等人提出了一种重新布线U-Net网络跳转连接的方法,并在胸部低剂量CT扫描的结节分割、显微镜图像的细胞核分割、腹部CT扫描的肝脏分割和肠镜视频的息肉分割等任务中测试了其性能。Goyal将DeepLabV3应用于皮镜彩色图像分割,提取出皮肤病变区域。

2.3基于注意机制的分割方法

聂提出了一种注意力模型,比基线模型(V-Net和FCN)能更准确地分割前列腺。SinHa提出了一种基于多层注意机制的网络,用于MRI图像中的腹部器官分割。秦等人提出了一种扩展的卷积模块来保留三维医学图像的更多细节。基于其他注意机制的泣血图像分割的论文还有很多。

2.4基于对抗学习的分裂网络

Khosravan提出了一种用于从CT扫描中分割胰腺的对抗训练网络。基于Son生成对抗网络的视网膜图像分割。薛在生成对抗的框架下,采用全卷积网络作为分割网络,实现了对MRI图像中脑肿瘤的分割。还有其他论文成功的将GANs应用于医学图像分割,就不一一列举了。

2.5基于RNN的细分模型

递归神经网络(RNN)主要用于处理序列数据。长期和短期记忆网络(LSTM)是RNN的改进版本。LSTM通过引入自循环可以长时间保持梯度流动。在医学图像分析领域,RNN用于对图像序列的时间相关性进行建模。Bin等人提出了一种将全卷积神经网络与RNN相结合的图像序列分割算法,将时间维度上的信息带入到分割任务中。高等使用CNN和对脑MRI切片序列中的时间关系进行建模,以提高图像的分割性能。李等人利用U-Net获得初始分割概率图,然后利用对三维CT图像进行胰腺分割,提高了分割性能。利用RNN进行医学图像分割的论文还有很多,就不一一介绍了。

2.6摘要

这部分主要是关于分割算法在医学图像分割中的应用,所以创新点不多。它主要关注不同格式数据的特征(CT或RGB、像素范围、图像分辨率等。)和不同部分的数据(噪声、物体形状等。).经典网络需要针对不同的数据进行改进,以适应输入数据的格式和特点,从而更好地完成切分任务。虽然深度学习是个黑箱,但总体来说,模型的设计还是有章可循的。什么策略解决什么问题,引起什么问题,可以根据具体的分割问题来选择,以达到最佳的分割性能。

一些参考资料:

1自然和医学图像的深层语义分割:综述

2 NAS-Unet:医学图像分割的神经结构搜索。IEEE访问,7:44247–44257,2019。

3 .从图像到图像的翻译在弱监督下促进分割。arXiv预印本arXiv:1904.01636,2019

4医学图像分割的多尺度引导注意。arXiv预印本arXiv:1906.02849,2019。

5 SegAN:用于医学图像分割的具有多尺度L1损失的对抗网络。

6用于联合4D医学图像分割的全卷积结构化LSTM网络。在2018年IEEE

7 https://www.cnblogs.com/walter-xh/p/10051634.html

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/112784.html

发表回复

登录后才能评论