RNN常见结构

1. 介绍

深度学习中，虽然CNN除了被经常用来进行图像相关的任务外，也可以作为一种特征提取的方法用在NLP任务中。但是在NLP任务中，更多的我们还是使用RNN模型，本文就简单介绍几种常用的RNN结构。

2. 基本RNN

不同于在CNN模型中，网络的状态只决定于输入。在RNN中，最明显的一个特征就是它还决定于上一个时刻的状态，因此RNN经常被用来处理序列问题，被用在序列性质非常明显的NLP任务上。

基本的RNN结构如下：

它跟CNN和DNN区别最大的地方就在于这些前馈神经网络是个有向无环图的模型(DAG)，而在RNN中是至少包含一个环的，在时间上进行展开我们可以更明显的看到这种特性：

公式可以表示为：

$\begin{aligned}& h^t = tanh(W_{hx}x^t + W_{hh}h^{t-1}+b_h) \\\\ &o^t = softmax(W_{oh}h^t + b_o) \end{aligned}$

其中$x^t$是t时刻的输入，在NLP任务中，通常代表一句话中第t位置处的字。隐藏层的状态h不光决定于当前的输入，还决定于前一个时间t-1的状态，通过矩阵 $W_{hh}$ 联系t-1的状态和当前状态，通过 $W_{hx}$ 联系当前输入 $x^t$ 和当前状态，这里的激活函数通常可以使用tanh函数。对于t时刻的输出通常可以使用一个softmax回归，参数矩阵为 $W_{oh}$ 。

3. RNN的反向传播 -- BPTT

可以看到，类似于CNN在不同位置上共享卷积矩阵的参数，RNN在不同时刻t是共享参数的。对于不同时刻t，使用的是同样的 $W_{hh}, W_{oh}$ 。对于RNN的反向传播有自己的一套算法BPTT，BP是反向传播，TT是Through Time。在介绍BPTT之前，先回忆一下在DNN中的反向传播。DNN的结构如下：

可以看到，前向过程的公式为： $\begin{aligned} &z^1 = W^1x+b^1 \\\\ & a^1 = \sigma(z^1) \\\\ &... \\\\&z^L = W^La^{L-1}+b^{L-1}\\\\&a^L = \sigma(z^L) \end{aligned}$ 方向传播的话先定义一个中间变量: $\delta^l = \frac{\partial{C}}{\partial{z^l}}$ 代表损失函数C关于第l层的未激活输出$z^l$的偏导数，然后对于任意一层的参数 $W^l$ 的偏导数为： $\frac{\partial{C}}{\partial{W^l}} = \frac{\partial{C}}{\partial{z^l}}\frac{\partial{z^l}}{\partial{w^l}}$ 其中 $\frac{\partial{z^l}}{\partial{w^l}}$ 为 $a^{l-1}$ ，这个在一次前向过程中已经全部求得，反向传播要做的事就是通过一次反向过程求得所有的 $\frac{\partial{C}}{\partial{z^l}}$ ，也就是所有层的 $\delta^{l}$ 。

通过求导的链式法则： $\delta^{l-1} = \frac{\partial{C}}{\partial{z^{l-1}}} = \frac{\partial{a^{l-1}}}{\partial{z^{l-1}}}\frac{\partial{z^l}}{\partial{a^{l-1}}}\frac{\partial{C}}{\partial{z^l}}=\sigma'(z^{l-1})\cdot(W^l)^T\delta^l$ 于是可以得到类似于前向过程的反向过程公式： $\begin{aligned} &&\delta^L = \sigma'(z^L)\cdot \triangledown C(a^L)\\\\ && \delta^{L-1} = \sigma'(z^{L-1})\cdot(W^L)^T\delta^L\end{aligned}$ 可以看到，前向过程是从第1层一直到第L层进行计算，而这里是从第L层到第1层计算每层的 $\delta^l$ ，所以这种算法被称为反向传播算法。

讲完了DNN的情况，这里再来理解RNN的情况。RNN的特殊在于时间t引入。将RNN沿时间进行展开：

可以发现，RNN展开后的结构和DNN的结构原理上是一样的。只是在DNN中，链接发生在相邻的隐藏层上面。而在RNN中，链接发生在相邻时间上。

然后DNN每一层的参数是不一样的，而在RNN中一个序列样本下，不同时间上的参数是一致的。在这种情况下，如果我们最后考虑的损失函数只和最末尾的t时刻的输出 $o^t$ 相关的话（情感分析，文本分类等都属于这种情况），在进行参数 $\beta$ 的更新时需要考虑每个时刻t上的损失函数对 $\beta$ 的梯度之和，即： $\frac{\partial{C^t}}{\partial{\beta}} = \sum_k \frac{\partial{C^t}}{\partial{\beta^k}}$ 这里的 $\beta^k$ 是参数在时间k上的状态，可以看作是DNN中的第k层的参数，于是利用反向传播可以求出每个时刻k的偏导数。但是实际上不同时刻k的参数 $\beta$ 是一个统一的参数，因此需要进行累加作为对参数 $\beta$ 总的偏导数。

如果我们考虑的损失函数和每个时刻的输出都有关（序列标注等属于这种情况），即 $C = f(C^1, C^2, ..., C^{t-1}, C^t)$ ，则有： $\frac{\partial{C}}{\partial{\beta}} = \sum_{k=1}^t\frac{\partial{C^k}}{\partial{\beta}}\frac{\partial C}{\partial{C^k}}$ 对于其中的每一时刻 $\frac{\partial C^k}{\partial \beta}$ ，都需要考虑k时刻以前所有的对 $\beta$ 的偏导数的和： $\frac{\partial C^k}{\partial \beta}= \sum_{j=1}^k \frac{\partial C^k}{\partial \beta^j}$ 于是得到，关于 $\beta$ 的总的导数为： $\frac{\partial{C}}{\partial{\beta}} = \sum_{k=1}^t\sum_{j=1}^k \frac{\partial C^k}{\partial \beta^j}\frac{\partial C}{\partial{C^k}}$

4. RNN的梯度爆炸/消失

可以看到RNN的BPTT算法与DNN的BP算法非常相似，只是前者发生在时间上，后者发生在隐藏层上。那么对于时间跨度很长的情况，BPTT就很可能会发生梯度爆炸或者梯度消失的情况。

激活函数：

像DNN一样，如果激活函数是 $\sigma$ 函数或者tanh函数，进行反向传播的时候很容易就会导致梯度很小，产生梯度消失的问题。

参数 $W_{hh}$ ：

不同于DNN中每层的参数是不一样的，RNN中的参数 $W_{hh}$ 每个时刻是一个参数，所以在进行反向传播的时候会进行 $W_{hh}$ 的累乘。

当 $W_{hh}$ 为对角阵时，我们就有结论：

当对角线元素小于1，则其幂次会趋近于0，进而导致梯度消失
当对角线元素大雨1，则其幂次会趋近于无穷大，进而导致梯度爆炸

当 $W_{hh}$ 不是对角阵时，对矩阵进行随机初始化。观察累乘后的分布如下：

可以看到，经过一定次数的相乘以后，大部分的数值都是趋近于绝对值大的数，要么趋近于0。这就分别对应了梯度爆炸和梯度消失的情况。

理论上， $W_{hh}$ 是个方阵，简化问题，假设它是可以进行对角化的，那么可以分解为 $Q\sum Q^{-1}$ ，其中的 $\sum$ 也是对角矩阵，累乘的话同样会发生上面讨论的对角阵相乘的情况。

处理梯度消失/爆炸的方法

梯度消失：

传统的使用RELU等激活函数的方法有效，但是存在更好的RNN架构直接就可以解决这样的问题，比如下文中要介绍的LSTM，GRU等。

梯度爆炸：

通常还是使用Gradient Clipping，在梯度大于一个阈值的时候，进行动态的放缩，将它限制在一定范围内。

5. BRNN

BRNN就是Bi-directional RNN，双向的RNN。前面的讨论都是单向的，从前到后，双向就是多了一层，从后到前：

对于每一个时刻t，它隐藏层的状态不光决定于前向层经过该时刻带来的状态h1，还决定于后向层经过该时刻带来的状态h2，然后进行链接[h1, h2]得到的就是在时刻t上的状态。两层可以分别保留各自的参数 $W_{hh}$ ，虽然使用不同的维度在理论上是可以的，但是实际上通常前向层和反向层保持维度一致。

这种模型带来的好处是显而易见的，它不光能够考虑当前时间受前面时间的影响，还能考虑受后面时间的影响，看几个简单的例子来感受一下：

在命名实体识别中，“我们爱吃红烧肉”，根据前向层很容易根据爱吃推断红烧肉是一道菜名，但是在“红烧肉很好吃”中，如果只根据前向，就比较难判断了，这个时候如果加上后向层，就可以根据很好吃判断它前面的字段红烧肉是菜名了。
在情感分析中，“这个公园好美啊，尽管有一点拥挤”，如果只看前向可能会比较倾向于把这个句子判断为负情感，但是如果加上反向的特征的话，就更容易判断争取，识别为正情感。

当然上面的例子只是简要说明一下双向的好处，实际的算法肯定不是这么浅显直观的计算的。

既然BRNN只是在RNN的基础上反向加了一层，本质是一样的，只是训练的时候考虑两层的参数，这里就不再重复介绍了。

6. LSTM

前面的讨论表明理论上RNN在考虑前后文联系的时候可以发挥不错的作用，尤其是当相关信息的位置间隔比较短的时候：

但是根据前一小节的讨论，当相关信息的位置间隔越来越长的时候，由于存在梯度消失的问题，在基础RNN上进行这样的参数学习非常困难的。

LSTM，long short term网络的出现就解决了这样的问题，它可以非常轻松的学习到序列中的长期依赖信息。

LSTM通常指的是里面的RNN网络中的LSTM Cell，类似于下图：

普通的RNN Cell，并没有中间那么复杂的链接，基本就是一个隐藏层+激活函数（通常使用tanh），而在在上图的LSTM Cell中有四个进行交互的层，后面可以看到这些是LSTM中的各种功能的门函数。

6.1 LSTM核心思想

LSTM中很重要的信息载体就是其每时刻的细胞状态，它会沿着水平线上传播。它在整个链上传播的过程中，会进行一些简单的线性操作。

这些线性操作会使得信息可以增加或者减少，而决定信息是如何增加或者减少的话就要依靠LSTM中定义的各种门函数。每个门可以理解为一个开关，0表示不通过，1表示通过，0到1之间的数表示部分通过，因此门函数使用sigmoid神经网络层代替，在sigmoid输出一个值后进行pointwise的操作：

6.2 LSTM中的三个门

遗忘门

在LSTM的第一步中要决定过去的信息需要遗忘多少，保留多少，遗忘们就起到这样的作用。它通过一个参数矩阵 $W_f$ （f代表forget），作用于上一个隐藏层的状态 $h_{t-1}$ 和当前输入 $x_t$ ，然后通过sigmoid函数得到一个[0, 1]的数：

回到具体的语言模型情况，考虑当前的细胞状态 $C_{t-1}$ 包含当前主语的性别，我们想要预测合适的代词。如果当前的输入 $x_t$ 包含新的主语，这个时候就要通过遗忘门来忘掉旧的主语。

输入门

知道了要忘掉哪些信息后，就要决定记住哪些新的输入信息了。

首先新的信息依靠一个参数矩阵 $W_C$ 和tanh激活函数，然后哪些信息需要记忆依靠的是类似遗忘门的sigmoid神经层计算的一个输入门函数。

其中 $i_t$ 是输入门层，决定要更新什么值，就是要记住哪些新的信息，然后 $\tilde{C}_t$ 是候选的新的状态。

然后依靠遗忘门和输入门的线性组合就可以得到新的细胞状态了：

可以看到新的细胞状态有两个部分，一个是有旧的细胞状态带来的，一个是有新的输入信息带来的。

语言模型的例子里，我们希望模型新的细胞状态能记住新的主语的性别。

输出门

在得到了新的细胞状态 $C_t$ 后，就能够直接通过激活函数(tanh)得到我们的输出了。不过这里我们仍然要一个门控制输出哪些信息，同样使用sigmoid神经层：

在语言模型的例子里，有可能是看到一个代词就选择输出一个跟动词有关的信息。

LSTM结构的个人理解

通过上面LSTM结构的解析，我们可以看到网络的输出和计算三个门的值所使用的都是 $h_t$ 。于是可以这样理解，在LSTM网络沿着时间传播的过程中，细胞状态 $C_t$ 时刻保存着最重要的信息。然后上一时刻的网络输出 $h_{t-1}$ 和当前的网络输入 $x_t$ 通过对应的矩阵计算得到三个门的值。输入门和遗忘门负责合并过去细胞状态和当前新信息，输出门负责控制对更新后的细胞状态的选择性输出。当前时刻的输出又被用来进行下一时刻三个门的计算。

6.3 LSTM的变体

上面的LSTM是标准的LSTM结构，下面讨论几个变体。

peephole connection

从上面的结构可以看出peephole connection就是让门的计算也同样受细胞状态的影响：遗忘门和输入门受上一时刻细胞状态 $C_{t-1}$ 的影响，计算输出门时当前的时刻的细胞状态 $C_t$ 已经计算好了，于是收到 $C_t$ 的影响。从公式中也可以很容易看出三个门计算中对于细胞状态的引入。

当然三个peephole connection可以有选择的添加，并非一定要三个一起加入。

coupled forget gate and input gate

不同一开始遗忘门和输入门分别计算，coupled就是只计算遗忘门 $f_t$ ，然后输入门就是 $1-f_t$ 。

在这种情况下，当遗忘门确定的时候，输入门也同时被确定。当我们要保留旧细胞状态的时候( $f_t = 1$ )，新信息就完全不会被加入。当我们要遗忘旧细胞状态的时候( $f_t = 0$ )，新的细胞状态完全由新信息决定。

6.4 LSTM与梯度消失

在描述LSTM的一开始，就说了它可以处理在长期记忆上产生的梯度消失问题，它具体是怎们做的呢？

先看一下LSTM反向传播时 $\delta^k = \frac{\partial C^t}{\partial c^k}$ 是怎么传播的： $\delta^{k-1} = \frac{\partial C^t}{\partial c^{k-1}} = \frac{\partial C^t}{\partial c^k} \frac{\partial c^k}{\partial c^{k-1}} = \delta^k \frac{\partial c^k}{\partial c^{k-1}}$ 根据LSTM的公式 $c^t = f^t \cdot c^{t-1} + i^t \cdot g^t$ 可以的到上式可以转变为： $\delta^{k-1} = \delta^k (f^t + ...)$ 上面的省略号是一些无关部分，不影响我们的分析。可以看到，当 $f^t = 1$ 时，省略号那部分无论多小，梯度都是可以很容易反向传播的。此时，即使是学习长期记忆也不会发生梯度消失问题。当 $f^t=0$ 时，上一时刻的信号不影响到当前时刻， $f^t$ 在这里控制着梯度传递到前一时刻的衰减程度，和它在遗忘门上的功能是一致的。

7. GRU

GRU和LSTM有着一定的相似性，算是一个简化版本的LSTM。它将遗忘门和输入门合并为更新门，因此只有两个门。而且它没有细胞状态 $C_t$ 的流动，只保留隐藏状态 $H_t$ 。

上图中的 $r_t$ 是reset gate 重置门，它负责对过去的隐藏状态 $h_{t-1}$ 进行取舍，以用来计算新的候选隐藏状态 $\tilde{h_t}$ 。不同于LSTM中，门函数是作用于tanh激活的计算结果，这里的重置门直接作用于计算过程中的 $h_{t-1}$ ，可以看到如果 $r_t=0$ ，在计算 $\tilde{h_t}$ 时，完全受当前输入 $x_t$ 的影响。