继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

研习U-Net

慕姐8265434
关注TA
已关注
手记 1309
粉丝 222
获赞 1065

webp

参考材料

[1] Awesome Semantic Segmentation.
[2] Semantic Segmentation
[3] Mike Liao. "Deep Layer Aggregation — Combining Layers in NN Architectures." (2018)

0. 说在前面


大家好,我叫周纵苇,现在是一个在读二年级的博士,目前在亚利桑那州立大学念生物信息学。主要的侧重点是计算机视觉,应用的领域大多在医学影像,当然我也是每年有在关注CVPR这样的顶会。另外,我们也会关注医学图像方面的顶会MICCAI,今天分享题目中的U-Net最早就是出自2015年的MICCAI。今年的MICCAI正在西班牙召开,我由于签证的关系没有参加,不过英文版的20分钟发言会更新YouTube和我的微博上,当然,我更习惯用中文的,所以非常感谢雷锋网的邀请,我可以就借次机会用中文讲一讲我们刚刚发表的工作。

webp

因为这个是一个可以回看的直播,所以中途我会在很多地方给出一些的问题,建议大家在回看的时候可以时不时的暂停一下,想一想如果问题给你,你会怎么去回答。对于在线的同学们,十分感谢你能抽时间来听我絮絮念,希望我们可以顺着思路和逻辑一步一步递进,也欢迎在留言中和我交流。

1. 铺垫


在计算机视觉领域,全卷积网络(FCN)是比较有名的图像分割网络,医学图像处理方向,U-Net可以说是一个更加炙手可热的网络,基本上所有的分割问题,我们都会拿U-Net先看一下基本的结果,然后进行“魔改”。

webp

U-Net和FCN非常的相似,U-Net比FCN稍晚提出来,但都发表在2015年,和FCN相比,U-Net的第一个特点是完全对称,也就是左边和右边是很类似的,而FCN的decoder相对简单,只用了一个deconvolution的操作,之后并没有跟上卷积结构。第二个区别就是skip connection,FCN用的是加操作(summation),U-Net用的是叠操作(concatenation)。这些都是细节,重点是它们的结构用了一个比较经典的思路,也就是编码和解码(encoder-decoder),早在2006年就被Hinton大神提出来发表在了Science上( Reducing the Dimensionality of Data with Neural Networks).

当时这个结构提出的主要作用并不是分割,而是压缩图像和去噪声。输入是一幅图,经过下采样的编码,得到一串比原先图像更小的特征,相当于压缩,然后再经过一个解码,理想状况就是能还原到原来的图像。这样的话我们存一幅图的时候就只需要存一个特征和一个解码器即可。这个想法我个人认为是很漂亮了。同理,这个思路也可以用在原图像去噪,做法就是在训练的阶段在原图人为的加上噪声,然后放到这个编码解码器中,目标是可以还原得到原图。

后来把这个思路被用在了图像分割的问题上,也就是现在我们看到的U-Net结构,在它被提出的三年中,有很多很多的论文去讲如何改进U-Net或者FCN,不过这个分割网络的本质的拓扑结构是没有改动的。举例来说,去年ICCV上凯明大神提出的Mask RCNN.

相当于一个检测,分类,分割的集大成者,我们仔细去看它的分割部分,其实使用的也就是这个简单的FCN结构。说明了这种“U形”的编码解码结构确实非常的简洁,并且最关键的一点是好用。

简单的过一下这个网红结构,我们先提取出它的拓扑结构,这样会比较容易分析它的实质,排除很多细节的干扰。

输入是一幅图,输出是目标的分割结果。继续简化就是,一幅图,编码,或者说降采样,然后解码,也就是升采样,然后输出一个分割结果。根据结果和真实分割的差异,反向传播来训练这个分割网络。我们可以说,U-Net里面最精彩的部分就是这三部分:

  • 下采样

  • 上采样

  • skip connection

这就是在我眼中的大部分分割网络的拓扑结构。

webp

2. 展开


基本的铺垫都已经完成了,看着这个拓扑结构,一个非常广义的问题就是:

这个三年不动的拓扑结构真的一点儿毛病都没有吗?

在这三年中,U-Net得到的超过2500次的引用,FCN接近6000次的引用,大家都在做什么样的改进呢?如果让你在这个经典的结构基础上改进,你会去关注哪些点呢?

首先一个问题是:要多深合适?

这里我想强调的一点是,很多论文给出了他们建议的网络结构,其中包括非常多的细节,比如用什么卷积,用几层,怎么降采样,学习率多少,优化器用什么,这些都是比较直观的参数,其实这些在论文中给出参数并不见得是最好的,所以关注这些的意义不大,一个网络结构,我们真正值得关注的是它的设计传达了什么信息。就拿U-Net来说,原论文给出的结构是原图经过四次降采样,四次上采样,得到分割结果,实际呢,为什么四次?就是作者喜欢呗,或者说当时作者使用的数据集,四次降采样的效果好,我们也可以更再专业一点,四次降采样的接受域或者感受野大小正合适处理图像。或者四次降采样比较适合输入图像的尺寸等等,理由一堆,但是你们真的相信吗?不见得吧。

我先给一个2017年在CVPR上发表的一个名叫PSPNet的分割网络,你会发现,好像整体的架构和U-Net还是像的,只是降采样的数目减小了,当然,他们也针对性的增强了中间的特征抓取环节的复杂性。

webp

要是你觉得这个工作还不够说明4次降采样不是必须的话,我们再来看看Yoshua Bengio组最近的关于图像分割的论文,这是他们提出的结构,名叫提拉米苏

webp



作者:MrGiovanni
链接:https://www.jianshu.com/p/3d9df4aa69bb


打开App,阅读手记
1人推荐
发表评论
随时随地看视频慕课网APP

热门评论

小学姐,图片无法看到~

查看全部评论