奥多码,点击查看详情 97CDN云盾,点击查看详情

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03

北大林宙辰团队全新混合序列建模架构mixcon:性能远超mamba

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。: M % . x 5 j投稿邮箱:liZ % Q r f N Nyazhou@c e . 1 / \ E | bjiqizhixin.co| Y Y 7 w Rm;zhaoyunfeng@jiqizhixinW p y y.com

在自然语w a k 8 # o u `言处理、语音识别和时间序列分析等众多领域中,序列建模是一项至关重要的任务。然n \ !而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。
因此,北京大w z A C 5学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Ja. 5 & 8 W 8 z 4 =mba。论文已在 European Conference on AX V g – q V yrtificial Intelligence (ECAI) 202K T 6 R I ]4 上发表。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
  • 论文标题~ ` t:Mv & – f j T ZixCoH ] J hn: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling
  • 论文地址:https://zhouchenlin.githu] 6 V ] N Vb.io/Publications/2024-ECAW } \ G O ! }I-MixCon.pdf
一、p U X现有序列建模模型的困境
线性V ( 8注意力 Transformer
线性注意力 Transformer 旨在通过近似2 _ V 1 _注意力机制来提高! t t v % w原始 Transformer 模型的效率,将计算复杂度从北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba降低到北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,但在处理长序列时可能会面临性能下降和计算开销增加的问题。
例如,早期利用局部敏感哈希方案虽降低复杂度,但引Q ? 8 q入大常数因子;近期通过改变计~ 1 v B算顺序等方法近似 SoftmV , ( Sax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。
线性 RNN 模型
线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。
然而,它们可能缺乏w R g复杂序列建模任务所需的适应性和动态特性,并且像传统序列模型一样,缺少反馈机制和自适应控制。
MoE 模型
MoE 模型通过结合专家模块,能有效处理长序列并保持计算效率,根据输入数据自适应选择专家模块。
但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。
二、MixCon 的核心架构与技术
Con9 j v Kba 模型架构
1. 状态空间方程
Conba 将序列建模任务表示为状态空间系统,状态空间定义为北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,其中北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba. y J M * m c 8北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba* S c N别为时间步北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的状\ ) L 7 / i态、输入和输出,北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是非线性函数,可由神经网络近似。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,其中北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是可学习参数矩阵。北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是可学习参数矩阵。
y – H j {处理长序列,Conba 采用选择性状态空间机制北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,以及引入延迟状态北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba和动态状态缩放机制北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
最后状态空间系统表示为北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba来捕捉长程依赖和适应序列动态变化。
2. 自适应控– r Z t 0 N V 0制机制
设计目标是最小化实际输出北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba和期望输出北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba之间的跟踪误差北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
控制增益矩阵北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba通过北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba更新,其中北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是跟踪误差向量北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的 2 范数,北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba是学习率。
3. 实施细节
神经网络近似:
利用 MLP 近似状态转移函数北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的非线性部分和观察函数北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,通过端到端训练确定最佳参数。
选择Y q C ; W N J性状态空间函数北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba用 SwiGLU(基于 Swish 和 GLU 的混合激活函数)近似,其公式为北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
进一步扩展和增强稳健性:引入过程噪声北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba和观察噪声北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba,增强模型对扰动的适应性。
4. 模型架构图如下所示:
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
MixCon 模型架构
MixCon 是结合注意力机制的 Tran: h | _ V Dsformer 层、Conba 层和 MoE 组件的创新混合解码器架构。
在内存使用方面,通过平衡注意力和 Conba 层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。
基本配置单j y [ L U M f G w位是 MixCon 块,由 Conba 或注意力层组合而成,每个层包含注意力模块或 Conba 模块,后接 MLP 或 MoE 层。MixCon 中的 MLP 层被 MoE 层替换,以增加模型容量同时保持较低计算负载。
对于 Conba 层实施,采用 RMSNorm 等技M ; \术,模型词汇量为W I ] Q = 256K,使用 BPE 进行训练,每个数字为单独令牌。
模型架构图如下所示:
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
三、MixCon 的实验与评估
实施细节
选择特定配置适应单块 80GB A800 NVIDIA GPU 的计算能力,实现质量和吞吐量的优化。
序列由 4 个 MixCon 块组成,每个 MixCon 块含 8 层 L = 8,注意力层和 Conba 层比例为 2:6 (a:c = 2:6),每隔一层 (e = 2) 用 MoE 替换 MLP 模块,模型有 16 个专家 (n = 16),每个令牌使用e 7 Q S J J Q o 2 个顶级专家 (K = 2)。
上下文长度分析
MixCon 在单块 80GB A800 GPU 上的最大上下文长度是 Jamba 的M a , O P两倍、Mixtral 的四倍、Llama – 2 – 70B 的十四倍(如图 3 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
吞吐量分析
1. 配置一:考虑不同批大小,在单L W ^ $ \# o Z / A800 80GB GPU(int8 量化)、8K 上下文长度下生成 512 个输出令牌,MixCon 吞吐量是 Mixtral 的三倍、Jamba 的两倍(如图 4 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
2. 配置二:单$ i ; –批次(批大小 = 1)、四块 A800 GPUs(无量化)、不同上下文长度下生成 512 个输出令牌,处理 128K 令牌时,MixCon 吞吐量是 Jamba 的 1.5 倍、Mixtral 的 4.5 倍(如图 5 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
数据集评估
本文在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC – E、ARC – Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同的学习策略。
MixCon 性能与类似或更* p ^ b ^ T大规模的先进公开模型相当或更优,尽管总参数比 Llama – 2 少,但作为稀疏模型,其活跃参7 & ? v : a数仅 5B,b ? 5 T n g W处理长序列时 Kv T ~V 缓存仅需 2GB,而 Mixtral 需 32GB(如表 2 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
消融实验
展示注意力和 Conba 层结合的优势及最佳比例和交织技术。纯 Conba 模型在上下文学习有困难,Attention – Conba 混合模型有类似纯 Transformer 模型的上下文学习能力。
以 HellaSwag(10 – shot)、WinoGrande(5 – shot)、Natural Quest6 ? 9ions(NQ,5 – shot)为指标,MixCon 表现稳健(如表 3 所示),MixCon(无 MoE)训练过程损失更低(如图 6 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
长上下文评估
利用问答基准测试评估 MixCon 处理长上下文能力,使用 L – Eval 中最长上下文数据集的五个数据集,以少样本格式(每个实验用三个例子)进行实验。
在 NarrativeQA、LongFQA、Natural Questions(NQ)、` 9 8 ) oCUS i ) ~ } a o * @AD 等数1 * F m n O据集上评估,MixCon 在多数数据集上优于 Mixtral 和 Jai 8 M ! # ? ^ Smba,平均性能优越,且在长上下文任务中具有更好的吞吐量(如表 4 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
结合注意力和 Conba 的优s U G 6 F 9 } } 1势及混合专家的影响
1. 注意力和 Conba 比例研究
用 13 亿参数模型在 2500 亿令牌上训练,L O , f I NMixCon 性能优于纯注意力或纯 Mamba,注意力和 Conba 层比例为 2:6 或 1:7 时性能差异小(如表 5 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
2. 混合专家的影响
当在 MixCon 架构的大规模情h g i V # # R h境(5B 参– Y O 4 # f ? u数,在 50B 令牌上训练)中应用 MoE 技术时,性能有显著提升(如表 6 所示)。
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
四、B | j q 8 wMixCon 的优势与展望
MixCon 作为创新的混合序列建模架构,通过整合多种技术,在处理复杂动态序列时具有高效的计算效率,在各项任务中展现出显著优势,能高效处理长序列、内存使用低且吞吐量高,具有高可扩展性和实用性。然而,它仍有改进空间,如进一步优化状态空x = 7 u [ & f ) \间表示、长序列的自适应控制、特定领域微调以及训练算法等。
总体而言,MixCon 为序列建模提供了新的解决方案B s L,在复杂序列处理方面表现出色,为 NLP 及其他领域的应用开辟了新道路。未来,我们期待它在更多领域发挥更大的作用,为技术发展带来更多的突破和创新。

以上就是北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/118045.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2024-12-25 13:31
下一篇 2024-12-25 13:32

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。