奥多码,点击查看详情 97CDN云盾,点击查看详情

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03

自从 transformer 模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷。

这次登场的选手,不仅要挑战 Transformer 的地位,还致敬了经典论文的名字。
再看这篇论Q ~ ; N 6文的作者列表,图灵奖得主、深度学习三巨头之一的 Yoshua_ 1 h Bengio 赫然在列。

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

  • 论文标题:Were RNNs All We Needed?
  • 论文地址:https://arxiv.om | 6 @ Rrg/pdf/2410.01201v1
最近,大家重新对用循环序列模型来解决 Transformer 长上下文的问题产生了兴趣+ ) . c 7 y 0 @ M,出现l R i了一大批有8 * f关成果,其中 Mamba 的成功引爆了 AI 圈,z ( I更是点燃了大家的研究热情。
Bengio 和他的研究团队发现,这些新的序列模型有很多共同点,于是他们重新审视了S [ D LSTM 和 GRU 这两种经典 RNN 模型。
结果发现,精简掉其中的W R $ t S w隐藏状态依赖之; _ . K后,不再需要基于时间反向传播的 LSTM 和 GRU 的表现就能和 Transformer 打个平手。
LSTM 和 GRU 仅能顺序处理信息,并且在训练时依赖反向传播,这使得它们在处理大量数据时速度缓慢,最终被淘汰。
基于以上发现,他们进一步简化J } d J 9 u了 LSTM 和 GRU,去掉了它们对输出q 1 V ^ s f范围的限制,并确保它们的输出在时间上是独立的,进而得到$ m = 1了 mz S 3 | y Z : D SinLSTM 和 minGRU。
相比传统 RNN,它们不仅训练时所需的参数显著减少,还可以并行训练,比如上下文长度为 512 时,速度能提升 175 倍。
这其实也是 Bengio 长期关注 RNN 的系列研究成果。在今D ~ b 6年五月,Bengio 及其研究团队和加拿大皇家银行 AI 研究所 Bo, O Yrealis AI 合作| M @ Y ^ –发布了一篇名为《Attention as an RNN》的论文。
正如论文名字所示,他Z $ Y n | .们将注意力机制重新诠释为一种 RNN,引入了一种基于并行前缀扫描(S ; Tprefix scan)算法的新的注意力公式,该公式能够高效地计算注意力的多对多(many-to-many)RNN 输出。基于新公式的模块 Aaren,不仅可以像 Transformer 一样n ` 4 j并行训练,还可以像 RNN 一样高效更新。
更多详情,可以参见本站之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Tra\ 2 Z G ; 7 =nsformer,但超级省内存》
简化 LSTM 和 GRU
在这一部分,研究者通过简化和移除各种门中的若干隐藏状态依赖关系,证明 GRU 和 LSTH C 1 ; I f p k nM 可通过并行扫描进行训练。
在此基础上,研究1 8 1 & X Q C @者进Y h 6 $ n * 5 ( J一步简化了这些 RNN,消除了它们对输出范围的限制(即 tanh),并确保输出在规模上与时间无关= V 7 L I N E
综合上述步骤,研究者提出了 GRUs 和 LSTMs 的最小版本a ) 0 ! l G ](minGRUs 和 minLSTMs),它们可通过并行扫描进行训练,且性能可与 Trans_ g s J G %formers 和最近提出的序列方法相媲美。
minGRU
研究者结合了两个简化步骤,得到了一个极简版的 GRU(minGRU)。

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

由此产生的模型比原始 GRU 效率大大提高,只需要图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed? 个参数,而不是 GRU 的图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?个参数(其中 d_x 和 d_h 分别对应于 x. P K u m K : m I_t 和 h_t 的大小)。在训练方面,minGRU 可以使用并行扫描算法进行并行训练,从而大大加快训练速度。
在实验部分,研究者展示了在 T4 GPU 上,当序列长度为 512 时,训练y # M U J步骤的速度提高了 175 倍。参数效率的提{ K \ i C g A B x高也非常显著。通常,在 RNN 中会进行状态扩展(即图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?,其中 ≥ 1),使模型更容易从输入中学习特征。
minLSTM
研究者结合了三个简化步骤,得到 LSTM 的最小版本(minLSTM):

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

与 LSTM 的图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed? 相比,最小版本(minLSTM)的效率明显更高,只需要图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed? 个参数。此外,mi5 : a RnLSTM 可以使用并行扫描算法进行并行训练,大大加快了训练速度b q 8 E。例如,在 T4 GPU 上,对于长度为 512 的序g ? l z C &列,minLSTM 比 LSTM 加快了 235 倍。在参数效率方面,当 = 1、2、3 或 4(其中图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?)时,与 LSTM 相比,minLSTM 仅使用o n 0 X @ `了 38%、25%、19% 或 15% 的参数。
Were RNNs All We Need1 s d :ed?
在本节中,研究者将对最小版本(minLSTMs 和 minGRUs)与传统版本(LSTMs 和 GRUs)以及现代序列模型进行了比较。
Mine T W = n D j Simal LSTMs 和 GRU 非常高效
在测试时,循环序列模型会按顺序推出,从= | r ? e q h o而使其推理更为高效。相反,传统 RNN 的瓶颈在w b & U于其V ; \ T C d j训练,需要线性训练时间(通过时间反向传播),这导致其最终p I o !被淘汰。人们对循环序列模型重新产生兴趣,是因为许多新的架构可以高效地进行并行训练。
研究者对比了训练传统 RNN(LSTM 和. ( S v : # 9 ( { GRU)、它Q h i c K们的最小版本(minLSTM 和 minGRU)以及一种最新的序列模型所需的资源,还特别将重点放在与最近大受欢迎的 Mamba 的比较上。实验R J ( ] b 0考虑了 64 的批大小,并改变了序列长度。研究者测量了通过模型执行前向传递、计算损失和通过后向传递计算梯度的总运行时间和内存复杂度。
运行时间。在运行时间方面x Q a ( G F(见图 1(左)),简化版 LSTM 和 GRU(minLSTM 和 minGRU)Mamba 的运行时间相近。对 100 次运行进行平均,序列长度为 512 的 minLSTM、minGRU 和 Mamba 的运行时间分别1 s G M B \ H H H为 2.97、2.72 和 2.71 毫秒。
对于长度为 4096O o j 的序列,运行时间分别为 3.41、3.25 和 3.15 毫秒。相比之下,传统的 RNN 对应程序(LSTM 和 GRU)所需的运行时间与序列长S | a B度成线性关系。对于 512 的序列长度,在 Tp @ [ & v S [ 6 ]4 GPU 上,minGRUs 和 minLSTMs 每个训练步骤的速度分别比 GRUs 和 L] x S B o K MSTMs 快 175 倍和 235 倍(见图 1(中))。随着序列长度的增加,minGRUs 和 minLSTMs 的改进更为显著,w m b t v在序列长度为 4096 时,minGR? O R + 7 f ~ }Us 和 minLSTMs 的速度分别提高了 1324 倍和 1361 倍。因此,在 minGRU 需要一天才能完成固定数量的 ef Y zpoch 训练的情况下,其传统对应的 GRU 可能需要 3 年多的时间。

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

内存。通过利用并行扫描算法高效地并行计算输出,minGRs S K 4 u .U、minLSTM 和 Mamba 创建了一个更大的计算图,因此与传统L s l的 RNN 相比需要更多内存(见图 1(右))。与传统的 RNN 相比,最小变体(minGE 4 – 7 [ * ;RU 和 minG U }LSTM)多用了 88% 的内存。与 minGRU 相比,Mamba 多用k o # U # v r了 56% 的内存。但实际上,运行时间是训练 RNN 的瓶颈。
删除图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?的效果。最初的 LSTM 和 GRU 使用输入 x_t 和之前的隐藏状态 图片计算各种门电路。这些模型利用其与时间依赖的门来学习复杂函数。然而,minLSTM 和 minGRU 的训练效率是通过放弃门对7 8 f v w U @ Y Y之前隐藏状态 图片的依赖性来实现的。因此,minLSTM 和 minGRk r G Z # AU 的门仅与输入 x_t 依赖,从而产生了更简单的循环模块。因此,由单层 minLSTM 或 minGRU 组成的模型的栅极S , q 6 T Y : x B是与时间无关的,因为其条件是与时间无关的输入图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
然而,在深度学习中,模型是通过堆叠模块构建的。虽然第一层的输入 图片 与时间无关,但其输出 图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed? 与时间有关,并被用作第二层的输入,即 图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?。因此,从第二层开始,minLSTM 和 minGRU 的门也将随时间变化,从? % O / # 8 P z而建立更复杂的函数模型。表 1 比较了不同层数的模型在 Mamba 论文中的选择性复制任务上0 r M z Z ( ? g的表现。c 4 z 0可以立即看出时间依赖性的影响:将层数增加到 2 层或更多,模型的性能就会大幅提高。

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

训练稳定性。层数的另一个影响是稳定性增强,随着层数的增加,准确率的差异减小(见表 1)。此外,虽然 minX L n p U M 9 j DLSTM 和 ming ! u / a ` LGRU 都R W 5 i ` @ V / j能解决选择性复制任务,但可以看到 minGRU 是一种经验上F 3 /比 minLSTM 更稳定的方法,它能以更高的一致性和更低的方差解决该任务。在训练过程中,] + d \ l B 3 ~ s这两组参数的调整方向不同,使得比率更Q x % w l难控制和优化。相比之下,minGRU 的信息丢弃和添加由单组参数(更新门)控制,因此更容易优化。
Mini@ H y e Zmal LSTMs 和 GRUs 表现良好
上述内容展示了简化传统 RNN 所带来的显著效率提升。这部分将探讨最小版本的 LSTM 和 GRU 与几种流行的序列模型相比的经验性能。
选择性复制。此处考虑 Mamba 论文中的长序列选择性复制任务。与最初的复制任务不同,选择性复制任务的输入元素相对于输出元素e 6 ; C d %是随机间隔的,这增加了任务的难度。为了解决这个任务,模型需要进行内容感知推理,记忆依赖的 token 并过滤掉不依赖的 token。
表 2 将简化版的 LSTM 和 GRU(minLSTM 和 minGRU)) d ; w u与可以并行训练的著名7 i j X L W循环z $ $ – b A :序列模型进行了比较:S4、H3、Hyena 和i t Y h M 6 _ Mamba (S[ g s6)。这些基线的结果引自 Mamba 论文。在所有这些基线中,只有 Mamba 论文中的 S6 能够解决这一任务。minGRU 和 minLSTM 也能解决选择性复制任务,其性能与 S6 相当,并优于所有其他基线。LSTM 和 GRU 利用内容感知门控机制,使得这些最小版本足以解决许^ u l x [ y n k F多热门序列模型无法解决的这一任务。

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

强化学习。接下来,研究者讨论了 D4RL 基准中的 MuJoCo 运动任务。具体来说考虑了三种环境:HalfCheetah、Hopper 和 Walker。对于每种环境,模型都在三种不同数据质量的数据集上进行训练:中等数据集(M)、Y * V中等游戏数据集(M-R)和中等专家数据集(M-E)w m 1 | T w 2
表 3 将 minLSTM 和 minGRU 与各种 Decision Transformer 变体进行了比较,包括原始 Decision Transformer (DT)、Decisi8 ~ 6on S4 (DS4)、Decision Mamba 和(Decision)Aaren。minLSTM 和 minGRU 的性能Z ^ z C y *优于 Decision S4,与 Decist o w a C b Qion TransfW K I Y X Q g \ vormer、Aaren 和 Mamba 相比也不遑多让。与其他循环方法不同,Decision SV : : G b t U } _4 是一种循环转换不感知输入的模型,这影响了其性能。从 3 3 = 9 个数据集的平均得分来看,minLSTM 和 minGRU 优于所有基线方R ; u – h a M r法,只– u ? n p 8 u Y有 Decision Mamv U f o : z 7 :ba0 n p V2 X 7 n v @差距很小。

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

语言建模。研究者使用 nanoGPT 框架对莎士比亚作品进行字符级 GPT 训练。图 2 用交叉熵损失绘制了学习曲线,将所提出的最小 LSTM 和 GRU(minLSTM 和 minGRU)与 Mamba 和 Transformers 进行了比较。结果发现,minGRU、minLSTM、Mamba 和 Transformers 的测试损失相当,分别为 1.548、1.555、1.575 和 1.547。Mamba 的表现略逊于其他模型,但训练速度更快,尤其是在早期阶段,在 400 步时达到最佳表现,而 minGRU 和 minLSTM 则分别持续训练到 575 步和 625 步。相比之下,Transformers 的训练速度明显较慢,需要比 minGRU 多 2000 步(∼ 2.5 倍)的训练R * ] 7 D v o 6 I步骤才能达到与 minGRU 相当的性能, ) b,这使得它的训练速度明显更慢,资源消耗也更大(与 minGRU、minLSTM 和 Mamba 的线性复杂{ o 2 ^ E 7度相比,Transformers 的复杂度为二次方)。

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

更多研究细节,可参考原论文。

以上就是图灵奖得主Yoshut A I t $ ^ 2 A sa Bengio新作:WerS 9 @ 0e RNNs AllY ; | H + 6 We Needed?的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/118031.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2024-12-25 13:30
下一篇 2024-12-25 13:30

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。