简介:长短期记忆(long short-term memory,LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说就是比普通RNN在更长的序列中有更好的表现。
基本原理:LSTM是一种特殊的RNN,主要通过三个门控逻辑实现(遗忘、输入、输出)。包含三个阶段:(1)忘记阶段,遗忘门。这个阶段主要是对上一个节点传进来的输入进行选择性忘记。简单来说就是“忘记不重要的,记住重要的”。具体来说就是通过计算得到的z的f次方(f表示forget)来作为忘记门控,来控制上一个状态的c的t-1次方,哪些需要留哪些需要忘。
主要应用:文本生成、机器翻译、语音识别、生成图像描述和视频标记等。
相关案例: