长短时记忆网络 vs. 长短时记忆单元论文阅读long short term memory networks for machine reading

极致一流技术

2024-07-27 帮助1人

本文总结long short term memory networks for machine reading 论文中提出的基于memory networks的方法，它基于attention机制将LSTM中的记忆单元换成memory networks，用于增加RNN记忆量。

论文动机

RNN这样的语言模型工具将句子处理成序列，依据它之前的记忆循环处理每个单词，直到理解整个句子的语义。

序列网络面临三大挑战：

梯度消失和梯度爆炸：能够通过GRU、LSTM解决梯度消失，使用gradient clipping解决梯度爆炸
内存压缩问题：在处理输入过程中，输入序列信息不断被压缩成稠密向量的同时，需要大量内存存储之前的信息。这导致序列网络在较长序列上泛化能力较差，而又在短序列上浪费了大量时间。
缺乏处理输入结构的机制

这篇论文旨在解决上述三个问题，同时维持序列语言模型增量的生成特性。

LSTM RNN网络

LSTM RNN主要处理一个固定长度的序列 $x = (x_1, x_2, ..., x_n)$ 。在处理序列时，其通过增量地向一个记忆槽中插入内容，通过门来控制新的内容是否被记忆、旧的内容是否被抹除，以及当前的内容是否需要反馈到外面。在时刻t，记忆 $c_t$ ，隐藏状态 $h_t$ 的更新如下：

$\left[ \begin{matrix} i_t \\ f_t \\ o_t \\ \hat{c_t}\end{matrix} \right] = \left[ \begin{matrix} \sigma \\ \sigma \\ \sigma \\ tanh\end{matrix} \right] W * [h_{t-1}, x_t]$
$c_t = f_t \odot c_{t-1} i_t \odot \hat{c_t} \\ h_t = o_t \odot tanh(c_t)$

LSTM 存在的问题

LSTM 在循环压缩下记忆序列的能力到底如何？LSTM产生下一个状态，下一个状态总是基于前一个状态，独立于 $h_1, ..., h_{t-1}$ 和token $x_1, x_2, ..., x_t$ 。LSTM的假设是：当前的状态能够汇总所有LSTM看到的token。该假设在序列足够长的时候，无法成立。
LSTM 按照序列顺序一个一个token的整合信息，但没有明确的机制从结构中推理，对token之间的关系建模

解决方案：LSTMN

本文的解决方法是将LSTM记忆细胞替换成记忆网络（memory networks）。LSTMN将每个输入token的上下文表示都保存到一个独立的记忆槽中，记忆量随着时间逐渐增加直到记忆达到上限。

这种方法的好处就是能够基于attention层帮助网络推理token之间的关系，通过非马尔可夫的方式进行状态更新。本文主要关注机器阅读。

下图展示了LSTMN的单元结构：

学新通
模型维护着两个向量集合，存储隐藏状态tape（文章用tape猜测是为了表达向量集合的意思）与环境交互（即计算注意力），用于实际记录记忆的记忆tape。因此，每个token都对应一个隐藏状态向量和记忆向量。

令 $x_t$ 为当前输入， $C_{t-1} = (c_1, ..., c_{t-1})$ 表示当前记忆tape， $H_{t-1} = (h_1, h_2, ..., h_{t-1})$ 表示当前隐藏状态tape，在时刻t，模型通过一个attention层通过 $h_1, ..., h_{t-1}$ 计算 $x_t$ 与 $x_1,..., x_{t-1}$ :

$a_i^{t} = v^{T}tanh(W_hh_i W_xx_t W_{\breve{h}}\breve{h}_{t-1}) \\ s_i^{t} = softmax(a_i^{t})$

上述公式直接生成前面所有token的隐藏状态的分布。基于该分布，自适应地计算summary vector：
$\left[ \begin{matrix} \breve{h}_t \\ \breve{c}_t \end{matrix} \right] = \sum_{i=1}^{t-1} s_i^{t} * \left[ \begin{matrix} h_i \\ c_i \end{matrix} \right]$

然后利用summary vector计算循环状态：
$\left[ \begin{matrix} i_t \\ f_t \\ o_t \\ \hat{c}_t \end{matrix} \right] = \left[ \begin{matrix} \sigma \\ \sigma \\ \sigma \\ tanh \end{matrix} \right] W * [\breve{h}_t, x_t]$
$c_t = f_t \odot \breve{c}_t i_t \odot \hat{c}_t$
$h_t = o_t \odot tanh(c_t)$

其中 $W_h, W_x, W_{\breve{h}}$ 是新的权重项。

LSTMN的主体思想就是借助attention机制，引入token之间的关联。这种关联是可导的，作为表征学习网络的一部分加入到整个网络中.

如何针对两个序列建模

一般NLP任务都需要对两个序列建模，如机器翻译。传统的方法就是encoder-decoder方法。第二个序列作为条件为第一个序列的概率输出处理。LSTMN是用于在序列内部的token之间关系建模，那么怎样将其应用到encoder-decoder架构中？这需要考虑到如何对两个序列的alignment（语义对齐）建模。

作者提出两种方法：

Shallow Attention Fusion

这种方法简单地将LSTMN作为一个独立的模块，在RNN或LSTM的encoder-decoder架构中使用。采用经典的encoder-decoder架构，同时当decoder 读取target world时采用经典的attention机制，连接encoder和 decoder。

学新通

Deep Attention Fusion

学新通

将序列内部的关系和序列之间的关系通过一个attention深度融合。具体架构如上图所示。

继续令 $C$ 和 $H$ 表示目标记忆tape和隐藏状态tape，用于保存已经处理过的目标token。在序列内部的attention仍然按照上面的方法计算，而序列之间的attention则需要额外考虑源记忆tape和隐藏状态tape，令 $A=[\alpha_1, ..., \alpha_m]$ 和 $[\gamma_1, ..., \gamma_m]$ ，其中 $m$ 是源序列长度。

在时刻t，利用全部的源序列token，应当按照如下的公式计算：
$b_j^t = u^Ttanh(W_\gamma\gamma_j W_xx_t X_{\breve{\gamma}}\breve{\gamma}_{t-1})$
$p_j^t = softmax(b_j^t)$
学习一个自适应的源内存tape和隐藏状态tape的线性表示：
$\left[ \begin{matrix} \breve{\gamma}_t \\ \breve{\alpha}_t \end{matrix} \right] = \sum_{j=1}^{m}p_j^t * \left[ \begin{matrix} \gamma_j \\ \alpha_j \end{matrix} \right]$
基于此，设计另外一个门函数，用来限制哪些源记忆表示，可以加入到目标记忆tape中：
$r_t = \sigma(W_r * [\breve{\gamma}_t, x_t])$
新的目标记忆向量由三部分组成：

inter-alignment: 源token和目标token之间的语义对齐
intra-relation: 目标token之间的关系
new input formation: 新的输入信息
$c_t = r_t \odot \breve{\alpha}_t f_t \odot \breve{c}_t i_t \odot \breve{c}_t$
$h_t = o_t \odot tanh(c_t)$

这篇好文章是转载于：学新通技术网

长短时记忆网络 vs. 长短时记忆单元论文阅读long short term memory networks for machine reading

论文动机

LSTM RNN网络

LSTM 存在的问题

解决方案：LSTMN

如何针对两个序列建模

Shallow Attention Fusion

Deep Attention Fusion

photoshop保存的图片太大微信发不了怎么办

photoshop扩展功能面板显示灰色怎么办

word里面弄一个表格后上面的标题会跑到下面怎么办

TikTok加速器哪个好免费的TK加速器推荐

《学习通》视频自动暂停处理方法

excel图片置于文字下方的方法

Android 11 保存文件到外部存储，并分享文件

微信提示登录环境异常是什么意思原因

微信运动停用后别人还能看到步数吗

微信人名旁边有个图标有什么用