理解人工神经网络

1957年，Frank Rosenblatt从纯数学的角度重新考察这一模型，指出能够从一些输入输出对(X, y)中通过学习算法获得权重W和b。

感知器算法和SVM的本质区别：感知器算法是思路是一个一个样本的看，如果对就不管它，如果不对更新W和b，SVM的思路是将样本集视为整体。

感知器很像我们日常生活，比如考试经常考第一，就不去调整，如果语文没考好，就要调整学习语文的方法。SVM算法是全局，感知器算法是针对每一个个体去调整。

算法本质是：

感知器算法证明：

那么原来的算法可以改成：

人工智能的第一次冬天

Minsky第一次提出了线性可分（不可分）的概念。1969年《Perceptron》。日常生活中有很多分类问题是非线性可分的。

这本书的出现，使人们意识到感知器的算法是如此狭窄，使得人工智能项目的经费都批不下来。十年左右的停滞。

多层神经网络

第二次复兴：用非线性的函数集合（模型）去区分非线性的样本

φ(*)是非线性函数，因为若不是的话，和上面的单层网络没有任何区别。

定理：当φ(*)为阶跃函数时，三层网络可以模拟任意决策面。

阶跃函数就是让大于0的地方等于1，让小于0的地方等于1。

举例：两层神经网络模拟一个非线性决策面，最后W取[1,1,1], b取-2.5：

如果决策面是四边形，第二层神经元就有4个，最后W取[1,1,1,1], b取-3.5。

如果决策面是圆的话，第二层就有无穷多个神经元，去逼近圆。

如果决策面分开了，要在第二层里把神经元竖着写下去，并且加一层神经元，把他们的结果合并起来。

对于两个三角形的情况，最后W取[1,1], b取-0.5。只要有一个1，最后结果就是1；都是0，最后结果就是0。

神经网络理论并不完备，对于某类问题适合什么样的模型并没有答案，只能用实验的方法。

后向传播算法（Back Propogation Algorithm）

梯度下降法求局部极值（Gradient Descent Method）

中间的式子中，α大于0，所以f(wk+1) <f(wk)

梯度下降法就是不断试探的过程。
和初始值的选择有很大的关系。

先找到一个下降的方向，然后再想具体怎么走。所以梯度下降法有很多变种。梯度下降法只负责找一个方向。

BP算法推导

先从一个简化版本入手：

和上面公式的不同是，上面是一维的，用d，这里是多维的，所以用偏导。

每输入一个X，求一次W和b，直到全部输完。

先算y、a1、a2的偏导，因为这三个点连接关系最丰富。

为什么叫后向传播算法？输入一个X，首先进行前向计算，得到y、z、a等，然后计算偏导，计算偏导的时候是从后面算到前面，即y、a1、a2直到w等。

常见的非线性函数：

要让后向传播算法能够进行，必须改造φ(x)，因为阶跃函数的φ'(x)在除了x=0的时候都等于0，这显然不合适。比如改造成sigmod函数。φ'(x) = φ(x)*(1-φ(x))

将sigmoid函数或者tanh函数替换阶跃函数，也能用三层网络模拟任何决策面。

sigmoid函数和tanh函数的问题在于，当x特别大的时候，y被压制了，导致信息无法从这一层传导到下一层。而Relu函数可以。第四种被称为Leak Relu函数，当x<0时，用较小的斜率压缩，而不是都将其变为0.

BP一般性推导

BP流程：

某一层W是m*n，就是m个神经元，b和z的维度都是m，和神经元个数一致。

求偏E/偏Zi，需要先求偏E/偏ai，然后乘以偏ai/偏Zi，因为Zi并不和E直接相连，它们通过ai连接。

i，j容易混淆，就是定义W的时候[[w11, w12, w13, ...], [w21, w22, w23], ...]

多层神经网络的优劣

优势：

基本单元简单，多个基本单元可扩展为非常复杂的非线性函数。因此易于构建，同时模型有很强的表达能力。
训练和测试的计算并行性非常好，有利于在分布式系统上的应用。
模型构建来源于对人脑的仿生，话题丰富，各种领域的研究人员都有兴趣，都能做贡献。

劣势：

数学不漂亮，优化算法只能获得局部极值，算法性能与初始值有关。
不可解释。训练神经网络获得的参数与实际任务的关联性非常模糊。
模型可调整的参数很多（网络层数、每层神经元个数、非线性函数、学习率、优化方法、终止条件等等），使得训练神经网络变成了一门“艺术”。
如果要训练相对复杂的网络，需要大量的训练样本。

随机梯度下降

（不用每输入一个样本就去变换参数，而是输入一批样本（叫做一个BATCH或MINI-BATCH），求出这些样本的梯度平均值后，根据这个平均值改变参数。
在神经网络训练中，BATCH的样本数大致设置为50-200不等。

随机梯度下降好处，降低随机性，同时不要让参数进行太剧烈的变化，即通过平均值改变，可以降低噪声的影响。

训练数据初始化

做均值和方差归一化。目的：使输入的特征每一个维度对后面的影响都差不多。

(W, b)的初始化

梯度消失现象：如果WT+b一开始很大或很小，那么梯度将趋近于0，反向传播后前面与之相关的梯度也趋近于0，导致训练缓慢。因此，我们要使y=±1一开始在零附近。

W和b的初始化问题，最近很火，有很多相关文章

Batch Normalization

google论文：Batch normalization accelerating deep network training by reducing internal covariate shift (2015)

基本思想：既然我们希望每一层获得的值都在0附近，从而避免梯度消失现象，那么我们为什么不直接把每一层的值做基于均值和方差的归一化呢？

batch normalization中的均值和方差，是在不断输入样本中累积和记录的。

和上面一样，值不能都集中在0附近，否则就变成了线性模型，没有充分利用其非线性的性质，以至于分类效果不佳。因此不能就只是归一化这样结束，还要用β和γ，将它放缩掉。β和γ作为训练的参数。

目标函数选择

1. 增加关于W的正则，原因：W不应该很大，否则输入输出会很大，从而不可控。

2. 如果是分类问题，F(W)可以采用SOFTMAX函数和交叉熵的组合。

如果F(W)是SOFTMAX函数和交叉熵的组合，那么求导将会有非常简单的形式：

最后输出的时候，强行用softmax变成概率。比如猫狗分类问题，有可能有个样本60%像猫，40%像狗。softmax在图像识别中特别常见。

交叉熵中，可以通过Jensen不等式证明，如果所有的p和为1，所有的q和为1，那么E一定大于0。并且如果q和p越像，那么E越小。

之前求E的方法，称为Mean Squared Error (均方误差)

参数更新策略

常规的更新（Vanilla Stochastic Gradient Descent）

 
nn.W{k} = nn.W{k} - nn.learning_rate*nn.W_grad{k};
nn.b{k} = nn.b{k} - nn.learning_rate*nn.b_grad{k};

SGD的问题

（1）(W,b)的每一个分量获得的梯度绝对值有大有小，一些情况下，将会迫使优化路径变成Z字形状。

上图中的线可视为等高线，E相等的线，一个方向gradient很大，另一个方向很小。梯度的分量有的特别大，有的特别小的时候，优化的路径不是特别好。

（2）SGD求梯度的策略过于随机，由于上一次和下一次用的是完全不同的BATCH数据，将会出现优化的方向随机的情况。

解决各个方向梯度不一致的方法：

（1）AdaGrad

AdaGrad：如果某一个方向上的梯度的绝对值特别大或特别小，就除以这个梯度的绝对值，使得梯度绝对值高的步长不要太大，梯度绝对值低的步长不要太小。

不仅如此，它不只算了某一个batch里的梯度，还做了叠加。从而越到后面梯度和r越来越大，步长越来越小，而开始时很大。

（2）RMSProp

RMSProp：给以前的累积梯度r和现在的梯度加一个权重ρ，二者权重之和为1，之前等于是各0.5。用此权重平衡更看重谁。

（3）Momentum

Momentum：第一次算出来的方向对第二次还有一点点影响。

（4）Adam

Adam：综合以上方法，让梯度各个方向差不多，同时让梯度下降方向相对平滑。ρ1：0.9，ρ2：0.999。结果证明并不好用。

训练建议

一般情况下，在训练集上的目标函数的平均值（cost，就是上面提到的E）会随着训练的深入而不断减小，如果这个指标有增大情况，停下来。有两种情况：第一是采用的模型不够复杂，以致于不能在训练集上完全拟合；第二是已经训练很好了。
分出一些验证集（Validation Set）,训练的本质目标是在验证集上获取最大的识别率。因此训练一段时间后，必须在验证集上测试识别率，保存使验证集上识别率最大的模型参数，作为最后结果。
注意调整学习率（Learning Rate）,如果刚训练几步cost就增加，一般来说是学习率太高了；如果每次cost变化很小，说明学习率太低。
Batch Normalization 比较好用，用了这个后，对学习率、参数更新策略等不敏感。建议如果用Batch Normalization, 更新策略用最简单的SGD即可，我的经验是加上其他反而不好。
如果不用Batch Normalization, 我的经验是，合理变换其他参数组合，也可以达到目的。
由于梯度累积效应，AdaGrad, RMSProp, Adam三种更新策略到了训练的后期会很慢，可以采用提高学习率的策略来补偿这一效应。

第二条的原因是：过拟合，尽信书不如无书。在训练集上效果很好，但在测试集上效果不好，就是书呆子。

要调的最重要的一个参数是学习率。

	nn.W{k} = nn.W{k} - nn.learning_rate*nn.W_grad{k};
	nn.b{k} = nn.b{k} - nn.learning_rate*nn.b_grad{k};