RNN, LSTM, GRU模型的作用, 构建, 优劣势比较,attention机制_gru的优势_吃一口桃酥的博客-CSDN博客
内部结构以及数据流动
$$ h_t = \tanh (W_t \left[ X_t, h_{t-1}\right] + b_t) $$
遗忘门结构
遗忘门数据流动
输入门结构
输入门数据流动