CNN 对模式分类非常适合，其最初是为识别二维形状而特殊设计的，这种二维形状对平移、比例缩放、倾斜或其他形式对变形有高度不变性。

图像识别/分类

图片识别／分类的一般过程：detect -> align -> represent -> classify。具体到 CNN 就是检测到图片的位置，剪出来对齐，表达特征，对若干层进行不同的卷积、pooling，最后全连接网络做分类。

传统模型:

Fixed features + unsupervised mid-level features + simple classifier

神经网络：

Low-level features －> Mid-level features -> High-level features -> trainable classifier

李飞飞的 ImageNet 比赛，在 2012 年之前，经典做法是人工选一些原始特征出来(SIFT, Hog, Harr, etc.)，再稍加变换，可能用到一些聚类的算法，做一些中等级别的特征，然后给某个分类器做识别，一般就是 SVM。这种方法每一步都会损失数据，到最后可能就达不到很好的分类效果。

注：把图像像素看成 words of bags，不同的原始图像可能分别是 M1*N, M2*N, M3*N 等等的 vectors，通过 K-means 的聚类聚比如说 1000 个类，就能把原来的 vectors 转化成长度为 1000 的直方图，也就形成中等级别的特征，维度就一样了，然后再选一个分类器。

2012 年第一次用了 CNN，正确率提高了 10%，人们意识到深度学习可能是图像识别非常有效的方式。与传统模型不同的是特征是自动选择的。

深度学习现在看来还可能是过冗余的，可以很多改进空间，如果能把 100M -> 100K 的参数，就可以不用离线训练，也可以放到 App 中了。

卷积神经网络

传统的神经网络都是采用全连接的方式，即输入层到隐藏层的神经元都是全部连接的，这样做将导致参数量巨大，使得网络训练耗时甚至难以训练，而 CNN 则通过局部连接、权值共享等方法避免了这一困难。

特点

通过局部连接和权值共享减少了神经网络需要训练的参数的个数。

局部连接
权值共享(每个 feature map 共享参数)
池化

一般架构

可能有多个卷积层或多个输出层，某些卷积层不跟着 pooling 也是可以的。

卷积层(Convolutional Layer)

卷积层是卷积神经网络基本结构，它由多个卷积核组合形成，每个卷积核同输入数据做卷积运算，形成新的特征图(feature map)，也就是，有几个卷积核，就有几个特征图。

比如说一张 32*32 的 RGB 图片，做卷积，一张图片就能理解。

Input volume: 32*32*3
Receptive fields: 5*5, stride 3
Number of neurons: 5

Output volume: (32-5)/3+1=10, -> 10*10*5
Weights for each of 10*10*5 neurons: 5*5*3=75

这其中，卷积核的 大小(size) 是由用户定义的，而 深度(或者说厚度)，是由输入数据定义的，一维数据就用一维卷积核，RGB 图片就是三维卷积核。

卷积核的 数目(kernel number)，常见参数有 64，128，256，为了使 GPU 并行更加高效。

每一个神经元从上一层的局部接受域得到输入，提取局部特征，每个局部特征相对于其他特征的位置被近似保留下来，原本的精确位置就没那么重要了。每一个计算层都由多个 feature map 组成，每个 feature map 都是平面形式的，平面中单独的神经元在约束下共享相同的权值集。这种结构约束具有平移不变性（强迫 feature map 的执行使用具有小尺度核的卷积，再接着使用一个 sigmoid 函数），另外，权值共享也可以实现自由参数数量的缩减。

卷积核的“矩阵”值，就是卷积神经网络的参数，卷积核的初值，通常随机生成，然后通过反向传播更新。随机生成可以通过高斯分布生成。一个问题：

卷积核初值完全一样好不好？
不好！如果初值完全一样，那么反向梯度改变的量也差不多，整体就没有变化性，没有多样性。

padding & stride

padding 也就是边界扩充，在卷积计算过程中，为了允许边界上的数据也能作为中心参与卷积计算，将边界假装延伸，目的是为了确保卷积后特征图尺度一致。卷积核的宽度为 2i+1，添加 pad 的宽度就为 i。如上图，5*5 的图，卷积核 3*3，取 padding=1，对原始数据上下左右各补 1，可能会有偏移量，就相乘相加再加上偏移值。

步长(stride)是对输入特征图的扫描间隔，因为相邻的卷积窗口传达的信息可能会差不多，所以跳着取，提高效率。

权值设置：
可以对所有权值做先验处理，按高斯分布做随机处理，然后梯度下降调整权值。

功能层

卷积神经网络还需要一些额外功能：

非线性激励： 卷积是线性运算，需要增加非线性描述能力
降维： 特征图稀疏，需要减少数据运算量，保持精度，如做一个 pooling
归一化： 特征的 scale 保持一致，比如说映射到 [0,1] 之间
区域分割： 不同区域进行独立学习
区域融合： 对分开的区域合并，方便信息融合
增维： 增加图片生成或探测任务中的空间信息

非线性激励层(None-linear activation layer)

如 ReLU 函数

更多见神经网络-从线性到非线性

池化层(Pooling layer)

每个卷积层跟着一个实现局部平均和子抽样的计算层，能达到降维的目的，由此 feature map 的分辨率降低。这种操作可以使 feature map 的输出对平移和其他形式的变形的敏感度下降。一张图解释下 2*2 的 max-pooling。

这样 M*M 的图像就成了 M/2 * M/2 的图像。当然还有 min-pooling 和 avg-pooling。
作用:

降低输出规模
增加可解释性
避免丢失过多信息

归一化层(Normalization layer)

如 批量归一化(Batch Normalization, BN)，原因是特征数的 scale 不一致，好处是可以加速训练，提高精度。

还有 近邻归一化(Local Response Normalization)，与 BN 不同的是，BN 依据 mini batch 的数据，而 LRN 仅需要自身，BN 训练中有学习参数，而 LRN 并没有。

$$x_i={x_i \over (k+(\alpha \sum_jx^2_j))^\beta}$$

切分层(Slice layer)

在某些应用中，希望独立对某些区域单独学习，比如说人脸识别，可以眼睛一套参数，耳朵一套参数。。好处是可以学习多套参数，得到更强的特征描述能力。

融合层(Merge layer)

对独立进行特征学习的分支进行融合，来构建高效而精简的特征组合。

可以用 级连(concatenation) 的方法，其实也就是不同输入网络特征的简单叠加，比如说首尾相接。

也可以是合并，或者说运算的融合，对形状一致的特征曾，通过 +, -, x, max, conv 等原酸，形成形状相同的输出，如微软的残差网络。

全连接层及全卷积网络

最后的输出一般是连一层全连接层(fully connected layer)，相当于 softmax 回归。当然其实也可以不连，像 FCN(全卷积网络)。

卷积层 的操作可以把 kernel 作用于输入的不同区域然后产生对应的特征图，也因此给定一个卷积层，并不要求输入是固定大小的。而 全连接层 的操作实际上是把输入拉成一个一维的向量，然后对这个一维向量进行点乘，这要求输入是固定大小的。这有的时候是很不合理的，如下图，如果要把红框的塔输入网络，就会产生图片变形。

如何网络接受任意的输入？
把全连接层变成卷积层，这就是所谓的卷积化。这里需要证明卷积化的等价性。直观上理解，卷积跟全连接都是一个点乘的操作，区别在于卷积是作用在一个局部的区域，而全连接是对于整个输入而言，那么只要把卷积作用的区域扩大为整个输入，那就变成全连接了。所以我们只需要把卷积核变成跟输入的一个map的大小一样就可以了，这样的话就相当于使得卷积跟全连接层的参数一样多。举个例子，比如 AlexNet，fc6 的输入是 256x6x6，那么这时候只需要把 fc6 变成是卷积核为6x6的卷积层就好了。

与传统神经网络相比，CNN 参数和计算量更多还是更少了？
参数变少了，因为都使用一套参数，而计算量却是变大了，因为卷积窗口要滑到不同的地方，进行计算、合并等操作。