五月
二.文献阅读
AlexNet
Abstract和introuction
初步了解了在当时领域卷积神经网络的发展状况和发展情况
The Architecture
貌似224×244好像不对,选用ReLU激活函数的原因,当初选用2个GPU(现在几乎不用)对总体结构的影响,LRN层的用法,对全连接层的对应关系了解,比较特殊的局部响应归一化操作
Reducing Overfitting
通过数据增强(这里是水平翻转和随机裁剪和颜色光宅照变换),Dropout方法随机停止一些神经元的运作,促使不同的神经元和不同的神经元合作,较少依赖
Details of learning
损失函数,权重衰减,类似于动量,主要是避免权重过大形成过拟合
Results
相比前人成果有了巨大飞跃,用CNN取得了很大的成就,同时图像的分析可能是标签问题,实际上效果很好
Discussion和Epilogue
表明CNN有巨大潜力,以及每个卷积层的重要性。
最终效果
基本初步了解了CNN
对其中的经典模型AlexNet进行了了解
对目前CNN的发展趋势有了初步理解
二. VGG-16
作者:Karen Simonyan & Andrew Zisserman
这里主要对VGG16的论文进行了学习,因为VGG19虽然多了3层但是总体提升不大
Abstract和introduction详细阅读
了解了基本目的和前人贡献
主要目的是对3×3的滤波器进行了研究
3.总体结构相对简单,具有规律性
experiment procedure
该模型的实验过程并无太大有效创新方式,主要是对其实验思路进行初步了解。
2.每次池化后刚好缩小一半,通道数量不断增加,图像缩小比例与通道增加比例有关系,
result and discussion
- 用多个3×3卷积核代替较大的卷积核,也顺便的简化
- 这种方法比用较大的卷积核具有更大的非线性,明显减少了网络参数
conclusion
总体来看与abstract没什么区别,但是从后人角度来看3×3卷积核可以代替附近许多数字大小的卷积核
ZFNet
本周主要对经典网络中的ZFNet进行了学习,主要是与可解释性问题相关,将深层的图片转化为肉眼可以识别的图片
论文名Visualizing and Understanding Convolutional Networks
油管上有作者的讲解视频,作为参考
Abstract和introduction
提出了当时对cnn的工作方式不太了解,不清楚为什么效果好或效果差,所谓“黑箱原理,他们提出了一种方法来解决这种问题”
Related Work
CNN以前可解释性比较差,对高层卷积很难看懂,这里提出了梯度上升(反池化)等方式将高层也转换成人眼可以看的懂的图片
Approach
即为从前往后构造的过程,本质上与之前学习的AlexNet之类的区别不大,这里不做赘述,使用了switch记录最大值的位置,使能够完成反池化过程,转置卷积,
Training Details
图像预处理,使用水平翻转等方式,相当于增强数据,对卷积核大小进行了限制和裁剪
Convnet Visualization
不同层的数据演化效果不同,2层边缘颜色等低级特征,3层有纹理质地等,4层更加特化如狗脸,以此类推,变换对图的底层影响大,通过遮挡部分图进行图像局部相关性分析,
Experiments
对AlexNet模型进行了实验,证明了去掉全连接层或中间两个卷积层对效果影响不大,但两个一起去掉影响大,这里差不多证明了全连接层用处不大,表明通过迁移学习可以用较小的数据量达到较好的效果,做到了对不同层提取的特征的有效性分析,特征分层,越深层效果越好
Discussion
可以相对比较直观的解释分类的特征,也表明了可以用这种方法来改进模型
最终效果
基本初步了解了VGG
对其中的经典模型ZFNet进行了了解
对目前CNN的可解释性问题有了初步理解