LSTM笔记

先从RNN开始：

传统的CNN用于图像识别效果很好，但是如果将CNN用于NLP结果就不会太好，尤其对于复杂情况应用CNN很难得到想要的结果。因为传统的神经网络并不能做到持续记忆, 而许多情境下我们需要从复杂的上下文中推断出信息，这个时候CNN就不能满足需求了。

先看RNN的结构

其中A 代表神经网络主体, xt 是网络输入，ht是网络输出，循环结构允许信息从当前输出传递到下一次的网络输入，所以是一个递归的结构。展开来看是这样的：

可以看到hiddenState是从过去传到未来的，也就是说RNN会记住前世的信息。

难以训练：Multiply the same matrix at each time step during forward prop
梯度弥散、梯度爆炸：Multiply the same matrix at each time step during backprop（当需要查找的结果距离当前位置很远时，梯度可能会变得很小）

Original link：https://izhangzhihao.github.io//2017/10/02/LSTM笔记/