腾讯混元又来开源，一出手就是最大MoE大模型

腾讯混元又来开源，一出手就是最大moe大模型

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交d O E ^ w h 7 w流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqiz^ K M thixin.c+ ( C j I # b |om

随着人工5 R 5 V w h ;智能技术的快速发展，大型语言模型（LLMs）在自然语言处理、计算机视觉和科学任务等领域取得了显著进展。然而，随着模型N – K规模的扩大，如何在保持高性能的同时优化资源消耗成为关键挑战。为了应对这一挑战，腾讯混元团队率先采用混W 1 l – [ H 8 l合专家（MoE）模型架构，最新发布的 Hunyuan-b R $Large（Hunyu) { @ N f B J fan-MoE-A528 0 q M R T Z –B）模型，是目前业界已经开源的基于 Transformer 的最大 MoE 模型，拥有 389B 总参数和 52B 激活参数。

本次腾讯混元 – Large 共计开源三款模型：Hunyuan-A52B-Pret^ ^ % / ~ 8 p Frain，HunL M % ,yuan-A52B-In, & Y kstr n S rruct 和 Hunyuan-A52B-FP8，可支持企业及开发者精调、部署等不同场景的使用需求，可在 HuggingFace、Githg : Bub 等技术社区直接下载，免费可商用。通过技术优化，腾讯混元 Large 适配开源框架的精调C 8 W E Q S +和部署，具有较强的实用性。腾讯云 TI 平台和高性能应用服务 Hm ` /AI 也同步开放接入，为} l E n b v , O模型的精调、API 调用及私有化部R y C署提供一站式服务。

腾讯混元又来开源，一出手就是最大MoE大模型

开源官网：httL ^ J A , –ps://llm.hunyuan.tencent.com/
g& 0 n q =ithub（开源模型工具包）：https://H 1 q 0g0 * ) withub.com/Tencent/Hunyuan-Large
huggingface（模型下载）：https://huggingface.co/tencent/Hunyuan-Large/tree/main$ x Z I ; q (
huggingface demo 地址：https://h( j 3 e L v 2ug~ g # L #gingface.co/spaces/t– 7 B Qencent/HS 7 K + Iunyua[ t + mn-Large
技术报告：https://arxiv.org/abs/2411.02265

Hunyuan-Large 整体模型效果

公开测评结果显示，腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Ll. B \ama3.1f 0 0 J、Mixtral 等一流的开源大模型。

腾讯混元又来开源，一出手就是最大MoE大模型

技术创新点

MoE (Mixture of Experts)，也即混合专家模型，MoE 模型的每一层都包含多个并行的同构专家，一次 token 的前向计算只会激活部分专家。MoE 模型的每一T , P f w @ I层会采用路由算法，决定了 token 会} 8 2被哪些专家处理。MoE 是一种稀疏的网络结构，具有比激活总参数量同等大小稠密模型更优越的性能[ P R，而推理成本却远低于总参数量相同的稠密模型。

得益于 MoE (Mixture of Experts) 结构的优越性，混元 Large 可以在保证模型推理速度的同时，显著Y c \提升r 3 9 h P j f模型的参数量进而提升模型性能。

1、路由和训练策略

共享专家路由策略

腾讯混元 Large 的专家层中，设置一个共享专家来捕获所有 token 所需的共同知识，还设置了 16 个需要路由的专家，模型将每个 tE t ! I A goken 路由给其激活得分最高的专家来动态学习特定领域的~ E ; u I 3 B知识，并通过随机补偿6 E ! f的路由保障训练稳定性。共享专家负责处理共享的通用能力和知识，特殊专家负责处理任务相关r [ ` J的特殊能力，动态激活的专家，利用稀疏的神经网络来高效率的进行推理。

回收路由策略

路由策略，即把 token 分发给 MoE 中各个专家的策略，是 MoE 模型中至关重要的部分。好的路T 0 ! ` y由策略可以有效地激活每个专家的能力，使得& E r k O每个专家保持相对均衡的负, z ! o B R R k载，同时提升模型的训练稳定性和收敛速度。业界常用的路由策略是$ i 9 P Top-K 路由，也就是将各个 token 按照其和专家的激活得分路由给各个专家。; ^ x = v但是这种路由方式难以保障@ , l a m C G ~ f token 在各个专家间平均分配，而那些超过专{ { O t Z { p { {家负载的 token 则会被直接扔掉，不参与专家层的计算。这样会导致部分处理 token 较少的专家训练不稳定。

针对这一问题，腾讯混元 Lz ` ; , ! (arge 在传统 T+ ! 6op-o 7 | / { t &K 路由的基础上进一步提出了随机补偿的路由方式。

腾讯混元又来开源，一出手就是最大MoE大模型

专家特定学习率适配策略

在 Hunyuan-A52B 中，共享专家和路由专家在每个迭代里面专家处理的 token 数有很大差异，这将导致每个专家实际的 bat` K /chsize 并不相u { .同（共享专家的 batchsize 是其他专家的 16 倍），根据学习率与 Batch size 的缩放原则，为不同（共享 / 特殊）专家适配不同的最佳学习率，以提高模型的训练效率。

腾讯混元又来开源，一出手就是最大MoE大模型

高质量的合成数据

大语言模型的成功与高质量的训练数据密不可分。公开网页数据通常质量参差不齐，高质量通常难以获o z 4 s 9 R K取；在天然文本语料库的基础上，腾讯混元团队在天然文本语料库的基J ? W 8 ; i础上，利用混元内部系列大语言模型，构建大量的高质量、多样性、高难度合成数据，并通过模型驱动的自动化方法评( } 1 J k f 9 !价、筛选和持续维护数据质量，形成一条完整数据获取、筛选、优化、质检和合成的自动化数据链路。

腾讯混元又来开源，一出手就是最大MoE大模型

在数学领域，网页数据中很难找到大量优质的思维链 (CoT$ e Q G t) 数据。腾讯混元 Large 从网页中挖掘构建大规模题库，并利用它作为种X 4 ! \ e P子来合? } [ * 2 y Q Y l成数学问答，从而保证了多样性；同& ; c A时我们利用一致性模型和评价模型来维护数据的质量，从而得到大量优质且多样的数学数据。通过加入数学合成数据显著提高了模型的数学能力。

在代( S ) W码领域中，自然代码很多质量较l O $ p J Z 5差，而且包含类似代码解释的代码 – 文本映射的数据很稀缺。因此，腾讯混元 Large 使用大量天然代码库中的代码片段作为种子，合W Y , P [ !成了大量包含丰富的文本 – 代码映射的高质量代码训练数据，加入后大幅提升了模型的代码生成能力。

针对通用网页中k r J ? M }低资源、高教育价值的数据，腾讯混元 Large 使用合成的方式对数据/ | z t g Y \做变换、增广，构建了大量且多样的、不同形式、不同风格、高质量的合成数据，提升了模型通用领域的效果。

2、长文能力优化

采用高效的超长文 Atten% [ Ytion 训练和退火策略。通过将长文和正常文本混合训练，逐步多阶段引入自动化构建的海量长文合成数据，每阶段仅需少量长文数据，即可获得较好的模型长文泛化和外推能力。

腾讯混元又来开源，一出手就是最大MoE大模型

腾讯混元 Large 模型专项提升的长文能力已经应用到腾讯: N C AI 助手腾讯元宝上，最大支持 256K 上下文，相当于一本《三国演义》或英文原版的《哈利・波特》全集的长度，可以一次性处理上传最多 10 个文档，并能够一次性2 / R解析多个微信公众号链接、网址，让腾讯元宝具备独有的深度解析能力。

3、推Y @ u B ? O b v理加速优化

随着 LLM 处理序列逐渐增长，Key-Value Cache 占用内存过大的问题日益突出，为推理成本和速度带来了挑战。

为了提高推理效率，腾讯混元团队使用 Grouped-Query Attention（GQA）和 Cross-Layer Attention （Ch ) W E YLA) 两种策略，对 KV Cache 进行了压缩。同时引入量化技术，进一步提升压缩比。

腾讯混元又来开源，一出手就是最大MoE大模型

通过 GQA+CLA 的引入，我们将 Hunyuan-A52B 模型的 head 数从 80 压缩到 8，并通过 CLA 每两层共用 KV 激活值，最终将模型的\ _ S I : KV Cache 压缩为 MHA 的 5%，大幅提升推理性能。下面是不同策略的 KV Cache 对比。

腾讯混元又来开源，一出手就是最大MoE大模型

4、Postrain 优化

SFT 训练

腾讯混元团队在Z d C ] u R r预训练模型的基础上使用超过百万量级的 SFT 数据进行精调训练，这些精调数据包含了数学、代码、逻辑、文本创作、文本理解、知识问答、角色扮演、工具使用等多种类别。为了保证进入 SFT 训练的数据质量，我们构建了一套完整的基于规则和模型判别的数D V ^ k t v \据质检 Pipeline，用于发现数据中常见的 markdown 格式错误、数据截断、数据重复、数据乱码问题。此外，为了自动化地从大规模指令数据中筛选高质量的 SFT 数据，我们基于 Hunyuan-70B 模型训练了一个 Crv V 8 q t t { f Hitique 模型，该| T X k _模型可以对指令数据进行 4 档打分，一方面可以自动化过滤低质数据，另一方面在自进化迭代过程中可以有效提升被选 response 的质量。

我们使用 32k 长度进行 Sz K h ) s \ zFT 训练，另外在训练过程中为了防止过拟合，我们开启了 0.1 的 attention dropout 和 0.2 的 hid ( p Y 0 ` z }dden dropout；我们发现相比 Dense 模型，MoE 架构的模型通过开启合理的 dropout，能有效提升下d ~ m游任务评测的效果。另外为了更高效的利用大规模指令数据，我们对指令数据进行了质量分级，通过从粗O D 8 4 S { R v L到精的分阶段训练，有效提升了模型效果。

RLHF 训练

为了使模型能够生成与人类偏好接近的回答，我们进一步使用直接偏好优化（DPO）对齐算法对 SFT 模型进行强化训练。与离线 DPO 算法不同的是，我们在强化学习二阶段采用的是在线强化 pipeline，这一y = h 9 K s ]框架里集成了使用固定 p# T – ` z dair 数t @ & Q = l J e 7据的离线 DPO 策略，和使用训练过程中更新的策略模型迭代式采样的在线强化策略。具体来说，每一轮模型只使用少量数据进行采样训练，训练完一轮之后的模型会对新的一批数据采样出多个回答，然后利用奖励模型（RM）打分，排序出最好! K l L I K U的回答和最差的回答来构建偏好对。

为了进一步增强强化学习阶段的训练稳定性，我们随机筛选了一定比例的SFT数据用于计算 sfh s ` : g s ? at loss，由于这部分数据在 SFT 阶段已经学过，DPO 阶段加 sft loss 是为了保持e L x # / d \ R模型的语言能力，且系数较小。此外，为了提升 dpo pair 数据里面的好答案的生成概率，防止 DPY I t t D V m –O 通过同时降低好坏答案的概率的方式来走& x 8 g R d ( ^ @捷径，我们也考虑加入好答案的 chosen loss 。G ; W ? / W |通过以上策略的有效结合，我们的模型在 RLHF 训练后各项效果得到了明显的提升。

腾讯混元又来开源，一出手就是最大MoE大模型

5、训练和精调

腾讯混元 Large 模型由腾讯全链路自研，其训练和推理均基于腾讯 Angel 机器学习平台。

针对 MoE 模型 All2all 通信效率问题，Angel 训练加速框架（AngelPTM）实现了 Expert 计算和通信层次 overlap 优化、MOE 算子融合优化以及低精度训练优化等，性能是 DU L N M s C s 1 yeepSpeed 开源框架的 2.6 倍。

腾讯混元 Large 模型配套开源的 Angel 推理Y 6 _ + ` M x n加速框架（AngelHCd L { / * { – D =F-= : O kvLLM）由腾讯 Angel 机器学习平台和e y 4 m \ J腾讯云智能联合研发。在 vLLM 开源框架的基础上适配了混元 Large 模型，持续通过叠加 NF4 和 FP8 的量化以及并行解码优化，在最大限度保障精度的条件下，节省 50% 以上显存，相比于 BF16 吞吐提升 1 倍以上。除此之外，Angel 推理加速框架也支持 TensorRT-LLM backend，推理性能在当前基础上进一步提升 30%，目前已在腾讯内部广泛使用，也会x Q O D F \ + ? K在近期推出对应的开源版本。

以上就是腾讯混元又来开源，一出手就是最大MoE大模型的详细内容！

百度未收录

本文由【好易之】整理自网络！
原创文章，作者:【好易之】如转载请注明出处：https://www.zhengjiaxi.com/zxwd/itzx/118462.html
如有侵权，请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途，否则后果请用户自负。
本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。
如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。如有侵权请邮件与我们联系处理。