Andyzy's Blog

同时，将本学期的学习任务，随本周周报一起上传。任务要求：阅读文献（篇数）、掌握工具（具体程度）、复现代码（文献中的经典模型）、具体收获、创新点（总结、思路及举一反三的想法等）、痛点问题（从阅读文献中得到、悟出、生活学习中感受、新闻媒体中得出、其他各种途径中获得）、其他任何具体可以量化的学习任务等，上传本群。我会在学习结束时，进行一定的考核。

每个月阅读文献篇数：10篇，其中7篇精读，3篇略读。主要读文献的方向：图像分割方向，骨干网络。

掌握工具（具体程度）：数据处理和清洗：numpy ，pandas 编程环境：anaconda + pytorch（熟悉常用的库和函数）笔记：Pytorch 常用函数 - 飞书云文档笔记和文献软件：obsidian + zotero

目前已经读文献：

笔记：基于深度神经网络的医学图像特征学习与分析 - 飞书云文档
Medical image segmentation using deep learning: A survey 很好的一篇综述文献，从骨干网、功能模块、损失函数三个方面介绍了医学分割的监督学习方法。
Deep Residual Learning for Image Recognition 提出经典的ResNet。延伸变种非常多。创新点：提出了残差结构，解决了梯度爆炸的问题。ResNet结构至今活跃在各种SOTA模型中，可迁移运用的能力很强。
Attention U-Net: Learning Where to Look for the Pancreas Attention UNet同样是一个重要的UNet改进网络，通过引入注意力机制来提高模型的性能。创新点：

引入注意力机制：传统的UNet模型在进行语义分割时，对于每个像素点都采用相同的卷积核进行处理。而Attention UNet通过引入注意力机制，可以让模型在处理每个像素点时自适应地关注不同区域的特征，从而提高模型的表现力。

多尺度特征融合：Attention UNet在UNet的基础上增加了多尺度特征融合模块，可以将不同层次的特征信息进行融合，从而提高模型的表现力。

损失函数的设计：Attention UNet使用了一种新的损失函数，称为结构相似性损失函数（SSIM loss）。这种损失函数能够更好地衡量图像质量，从而提高模型的性能。

数据增强技术：Attention UNet使用了一些新的数据增强技术，如随机裁剪和随机旋转等，可以增加模型对不同尺度和角度的图像的鲁棒性。

CBAM: Convolutional Block Attention Module 运用广泛的CBAM网络。创新点：

整合空间和通道注意力机制：CBAM模块将空间注意力机制和通道注意力机制相结合，能够更好地捕捉目标在空间和通道维度上的重要性。

采用多层感知机（MLP）：CBAM模块中的通道注意力机制采用多层感知机（MLP），而不是传统的全局池化操作。这种方式可以更灵活地学习不同通道之间的关系，提高模型的表现力。

可嵌套性：CBAM模块可以嵌套在任何深度的卷积层中，能够适应不同的网络结构和任务需求。

高效性：CBAM模块计算量相对较小，不会给模型带来过大的计算负担。

CE-Net: Context Encoder Network for 2D Medical Image Segmentation 创新点：

提出DAC(Dense Atrous Convolution)block。利用空洞卷积,通过增大感受野获取更多high-level的info,作者说high-level的信息有助于分割精确度的提升。

提出RMP(Residual Multi-kernel pooling)block。与其说是“提出”,不如说直接拿PsP-Net中的block来用了,就是金字塔池化,利用不同kernel-size的池化操作,preserve不同scale的空间信息。

Inception系列：

【DeepLab v1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
【DeepLab v2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
【DeepLab v3】Rethinking Atrous Convolution for Semantic Image Segmentation
【DeepLab v3+】Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
【Xception】Xception: Deep Learning with Depthwise Separable Convolutions

这个系列重要的思想是解耦。把各个卷积功能解耦到小的功能块中。Inception v3 把5x5分解成两个3x3卷积，把7x7分解成两个1x7，7x1不对称卷积，Xception把空间信息进行分解。 Xception 架构具有与 Inception V3 相同数量的参数，因此性能提升不是因为容量的增加，而是因为更有效地使用模型参数。

权重衰减：Inception V3使用4e-5，Xcerption使用1e-5。

Dropout层：ImageNet 实验，两个模型都在ReLU层之前包含一个速率为0.5 的dropout 层。对于 JFT 实验，由于数据集的大小使得不太可能发生过度拟合，因此没有包含 dropout。

辅助损失：Inception V3有，Xcerption不包含

Squeeze-and-Excitation Networks SqueezeNet同样是很重要的网络，涉及压缩和提取的网络。　
U$^2$-Net: Going Deeper with Nested U-Structure for Salient Object Detection Backbone是UNet，把每一个下采样模块替换成UNet就构成了U$^2$-Net。

计划继续读的文献：

BiSeNet
TransUNet
SwinUNet
DANet
2023年CVPR顶会阅读目标：学习注意力机制和CNN结合使用的方式：并联、串联，或者把Encoder替换成注意力机制，把Skip-Connetion改进变成加权和的形式

复现代码：

上个学期已复现 LeNet5、UNet
这个学期已复现 U$^2$-Net