同时,将本学期的学习任务,随本周周报一起上传。任务要求:阅读文献(篇数)、掌握工具(具体程度)、复现代码(文献中的经典模型)、具体收获、创新点(总结、思路及举一反三的想法等)、痛点问题(从阅读文献中得到、悟出、生活学习中感受、新闻媒体中得出、其他各种途径中获得)、其他任何具体可以量化的学习任务等,上传本群。我会在学习结束时,进行一定的考核。

每个月阅读文献篇数:10篇,其中7篇精读,3篇略读。主要读文献的方向:图像分割方向,骨干网络。

掌握工具(具体程度): 数据处理和清洗:numpy ,pandas 编程环境:anaconda + pytorch(熟悉常用的库和函数)笔记:Pytorch 常用函数 - 飞书云文档 笔记和文献软件:obsidian + zotero

目前已经读文献:

  • 笔记:基于深度神经网络的医学图像特征学习与分析 - 飞书云文档

  • Medical image segmentation using deep learning: A survey 很好的一篇综述文献,从骨干网、功能模块、损失函数三个方面介绍了医学分割的监督学习方法。

  • Deep Residual Learning for Image Recognition 提出经典的ResNet。延伸变种非常多。 创新点:提出了残差结构,解决了梯度爆炸的问题。ResNet结构至今活跃在各种SOTA模型中,可迁移运用的能力很强。

  • Attention U-Net: Learning Where to Look for the Pancreas Attention UNet同样是一个重要的UNet改进网络,通过引入注意力机制来提高模型的性能。 创新点:

  1. 引入注意力机制:传统的UNet模型在进行语义分割时,对于每个像素点都采用相同的卷积核进行处理。而Attention UNet通过引入注意力机制,可以让模型在处理每个像素点时自适应地关注不同区域的特征,从而提高模型的表现力。

  2. 多尺度特征融合:Attention UNet在UNet的基础上增加了多尺度特征融合模块,可以将不同层次的特征信息进行融合,从而提高模型的表现力。

  3. 损失函数的设计:Attention UNet使用了一种新的损失函数,称为结构相似性损失函数(SSIM loss)。这种损失函数能够更好地衡量图像质量,从而提高模型的性能。

  4. 数据增强技术:Attention UNet使用了一些新的数据增强技术,如随机裁剪和随机旋转等,可以增加模型对不同尺度和角度的图像的鲁棒性。

  • CBAM: Convolutional Block Attention Module 运用广泛的CBAM网络。 创新点:
  1. 整合空间和通道注意力机制:CBAM模块将空间注意力机制和通道注意力机制相结合,能够更好地捕捉目标在空间和通道维度上的重要性。

  2. 采用多层感知机(MLP):CBAM模块中的通道注意力机制采用多层感知机(MLP),而不是传统的全局池化操作。这种方式可以更灵活地学习不同通道之间的关系,提高模型的表现力。

  3. 可嵌套性:CBAM模块可以嵌套在任何深度的卷积层中,能够适应不同的网络结构和任务需求。

  4. 高效性:CBAM模块计算量相对较小,不会给模型带来过大的计算负担。

  • CE-Net: Context Encoder Network for 2D Medical Image Segmentation 创新点:
  • 提出DAC(Dense Atrous Convolution)block。 利用空洞卷积,通过增大感受野获取更多high-level的info,作者说high-level的信息有助于分割精确度的提升。
  • 提出RMP(Residual Multi-kernel pooling)block。 与其说是“提出”,不如说直接拿PsP-Net中的block来用了,就是金字塔池化,利用不同kernel-size的池化操作,preserve不同scale的空间信息。

Inception系列:

  • 【DeepLab v1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
  • 【DeepLab v2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
  • 【DeepLab v3】Rethinking Atrous Convolution for Semantic Image Segmentation
  • 【DeepLab v3+】Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
  • 【Xception】Xception: Deep Learning with Depthwise Separable Convolutions

这个系列重要的思想是解耦。把各个卷积功能解耦到小的功能块中。Inception v3 把5x5分解成两个3x3卷积,把7x7分解成两个1x7,7x1不对称卷积,Xception把空间信息进行分解。 Xception 架构具有与 Inception V3 相同数量的参数,因此性能提升不是因为容量的增加,而是因为更有效地使用模型参数。

权重衰减:Inception V3使用4e-5,Xcerption使用1e-5。

Dropout层:ImageNet 实验,两个模型都在ReLU层之前包含一个速率为0.5 的dropout 层。对于 JFT 实验,由于数据集的大小使得不太可能发生过度拟合,因此没有包含 dropout。

辅助损失:Inception V3有,Xcerption不包含

  • Squeeze-and-Excitation Networks SqueezeNet同样是很重要的网络,涉及压缩和提取的网络。 

  • U$^2$-Net: Going Deeper with Nested U-Structure for Salient Object Detection Backbone是UNet,把每一个下采样模块替换成UNet就构成了U$^2$-Net。

计划继续读的文献:

  • BiSeNet
  • TransUNet
  • SwinUNet
  • DANet
  • 2023年CVPR顶会 阅读目标:学习注意力机制和CNN结合使用的方式:并联、串联,或者把Encoder替换成注意力机制,把Skip-Connetion改进变成加权和的形式

复现代码:

  • 上个学期已复现 LeNet5、UNet
  • 这个学期已复现 U$^2$-Net