奥多码,点击查看详情 97CDN云盾,点击查看详情

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
租用 H100 的钱只需 233 美元。
还记得 Andrej Karpathy 纯 C 语言复现 GPT-2 大模型的项目吗?
今年 4 月,AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU2 9 X a % F/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。
llm.c 旨在大幅简化大模型的训练,ta 使用纯 C 语言 / CUDA,不需要 245MB 的 PyToq p v m j #rch 或 107MB 的 cPython。不过即使是这样的优化,复现 GPT-2 级别的模型也需要在 8 块 H100 上花费 45 分钟进行训练。
没想到几个月过去,业界水平居然有了指数级的提升,让 Karpathy 本人都感到惊叹:
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
在 GitHub 上出现了一个新项目「Modded-NanoGPT」,对技术进行了大幅度的迭代,现在实现相同的结果只需要 5 分钟。该研究的作者 KeV . M C U y Vller Jordan 曾在 Hive AI 工作,一直以来的研究方向都着重于模型训练的优化。他在本周三表示,利用具有大U g U序列长度的 Fl1 } PexAttentiq \ I 4 e o ^ o hon,他已把速度的记录从 7.2 分钟提升到了 5 分钟。
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
现在有了 Flex# m . _ P 9 uAttention 和较大的 seqlen,文档的拆分更少了,因此语言建: L | Y # } 5 4 ?模在训练和验证时都变得更容易。该` 1 p d = k k 2记录在 HellaSwag 上的准确率略有降低,约为 29%,而之前的记L Q U I录和 Andrej Karpathy 的原始训练准确率约为 30%。
让我们看看他是怎么做的:\ 3 2 G F
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
项目链接:https://github.com/Kel8 B / V l A – b ZlerJordb ~ ; lan/modded-nanogpt/tree/master
Mos – \ & m Mdded-NanoGPT
该项目名z K . ! m为「Modded-NanoGPT」,它是 llm.c 存储库的 PyTorch GPT-2 训练器的改进变体:; % $ Y k 4 q d T
  • 10B tokens–>1B tokens
  • 8xH100 上花 45 分钟训练 –>8xH100 上花 5 分钟训练
Modded-N9 ] )anoGPT 采用如下技术:
  • 先进的架构:旋转嵌入、QKC D a ( @ _-Norm 和 Re W p J 9 ReLU^2;
  • 新优化器:Muon;
  • 嵌入中的 Untied Head;
  • 投影和分类层初始化为零(muP-like);
  • 架构 shortcut:值残差和嵌入 shortcut(部分遵循论文《X L g } o v u ,Value Residual Learning For Alleviating Att^ 7 Z ; M ( ` & Sention Concentration In` Z X T \ Transformers》);
  • 动量(Momentum)warmup;
  • Tanh soft logit capping(遵循 Gemma 2);
  • Fl{ t ` O ~exAttention。
要进行训练,请运行以下三个命令:
<section>pip install -r requirements.txt</section><section>pip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu124 —upgrade # install torch 2.6.0</section><section>python data/cached_fineweb10B.py 10 # downloads only the first 1.0B training tokens to save time</section><section>./run.sh</section>
登录后复制
在网络连接良好的 8xH100 上,训练应在 20 分钟内完成。
结果将是一个具有 124M 活跃参数的 transformer,在 10 亿 Fineweb tokens 上训练了 187V y 6 ;5 steps,实现了约 3.278 的验证损失。相比之下,默认的 llm.c PyTorc\ v I I o ) mh 训练器在 100 亿S U # _ tokens 上训练了 19560 steps 后,验证损失 >3.28。
值得一提的是,要在更少的 GPU 上运行 Modded-NanoGPT,只需修改 run.sh 以获得不同的 –nproc_per_noQ , [ 2 )de。如果内存不足,只需在 train_gpt2.py 中将 dev% h ` d 2 Z v x %ice_batch_size 缩K % u 6 6 G ~ %小到 16 或 32。
这里有一个适用y ; Z r D u 6 E于全新 8xH100 实例的启动脚本:
<section>sudo apt-get update</section><section>sudo apt-get install vim tmux python3-pip python-is-python3 -y</section><section>git clone <a href="https://www.php.cn/link/e8cb5f581442030021d62fd780fa674d" rel="nofollow" target="_blank">https://www.php.cn/link/e8cb5f581442030021d62fd780fa674d</a></section><section>cd modded-nanogpt</section><section>tmuxpip install numpy==1.23.5 huggingface-hub tqdm</section><section>pip install --upgrade torch &amp;</section><section>python data/cached_fineweb10B.py 18</section>
登录后复制
如果 CUDA 或 NCCL 版本与你当前的系统设置不兼容,K { M ^ N # +Docker 可以成为一种有用的替代方案。这种方法标准化了 CUDA、NCCL、CUDNN 和 Python 的版本,减少了依赖性问题并简化了设置。注意:系统上必须已安装 NVIDIA 驱动程序。
<section>sudo docker build -t modded-nanogpt .</section><section>sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt python data/cached_fineweb10B.py 18</section><section>sudo docker run -it --rm --gpus all -v $(pwd):/modded-nanogpt modded-nanogpt sh run.sh</section>
登录后复制
有一个问题在于r P % l ~ E },NanoGPT= m , 训练很快是很好,但a t 0 ] W P i 0 Y它可能无法扩展,只是过拟合了 val 损失?Keller J= p j 4 hordan 表示,这很难反驳,因为「按规模」是一个无限类别(如果这些方法对 >? J L } .100T 的模型就不奏效了怎么办?),因此无法完全证明。此外l c Y E,作者也同意I 4 \ \ / p G T快速运行中使用的一些方法不太可能扩展。但如果读者关心 1.5B 模型,他们可能会被这个结果说服:
直接将快速运行(1$ _ I G0/18/24 版本)扩展到 1.5B 参数可以得+ 9 = ^ *到一个具有 GPT-2(1.5B)级 HellaSwag 性能的模型,它要比 K( ^ n * I * b Qarpathy 的基线便宜 2.5 倍(233 美元对比 576 美元):
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
Muon optimizer
除了在前人的肩膀上探索,新项目也使用了 Keller Jordan 自研的优化方式。比如这个 Muon 优化器,据他所说是目前已知最快的优化器,适用于包括 CIFAR-10 和 GPT-2 规模语言建模在内的各种训练场景。
Muon 的定义如下:
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞
其中 NewtonSchulz5 是 Newton-Schulz 之后的迭代,它近似地用 U @ V.T 替w | g { – x h (换 G,其中 U, S, V = G.svd ()。
<section>@torch.compile</section><section>def zeroth_power_via_newtonschulz5 (G, steps=5, eps=1e-7):</section><section>assert len (G.shape) == 2</section><section>a, b, c = (3.4445, -4.7750,2.0315)</section><section>X = G.bfloat16 () / (G.norm () + eps)</section><section>if G.size (0) &gt; G.size (1):</section><section>X = X.T</section><section>for _ in range (steps):</section><section>A = X @ X.T</section><section>B = b * A + c * A @ A</section><section>X = a * X + B @ X</section><section>if G.size (0) &gt; G.size (1):</section><section>X = X.T</section><section>  return X.to (G.dtype)</section>
登录后复制
对于这种训练场景D k 2 m u |,Muon 具有以下有利特性:
  • 内存* S ] N Q L % 3使用量比 Adam 低
  • 采样效率提高约 1.5 倍
  • 挂钟开销小于 2B X e ] H f ) d%
总结
作者表示,生成此优化器的许多选择都是通过追求 CIFAR-10 快速运行而通过实验获得的。其中值得一提的经验包括:
  • 在更新中使用 Nesterov 动量,在动量之后应用正交化。
  • 使用特定的五次 Ne0 C : . N = { / xwton-Schulz 迭代作为正交化方法。
  • 使用五次多项式的非收敛系数以最大化零处的斜率,从而最小化必要的 Newton-Schulz 迭代次数。事实证明,方差实际上并不那么重要,因此我们最终得到一个五次多项式,它在重复Z U \ r d应用后(快速)收敛到 0.68、1.13 的范围,而不是到 1。
  • 在 bfloat16 中运行 Newton-Schul3 ~ ) # Wz 迭代(而 Shampoo 实现通常依赖于在 fp32 或 fp64 中运行的逆 pth 根)。
使U 9 m + j @ g c q用 Newton-Schulz 迭代进行正交化的N R n t P B (方法可以追溯到 Bernstein & Newhouse (2024),他们建议将其作为计算 Shampoo 预处理器的方法,并从理论上探索了没有预处理器累积的 Shampoo。b W I !Kelle2 Z ! * ! a z ; vr Jordan 特别感谢了o r B + ) s论文作者之一 Jeremy Bernstein 的协助。
如果我们在这里使用 SVD 而不是 Newton-Schulz 迭代,那么这个优化器就会因为太慢而无法使用。Bernstein & Newhouse 还指出,没有预处理V f } E ; R 8 d器累积的 Shampoo 相j ) s c $ w当于谱范数中的最陡下降,因此 Shampoo 可以被认为是一种平滑谱最陡下降的方法。所提出的优化器可以被认为是平滑谱最陡下降的第二种方法,与 Shamp2 0 hoo 相比,它具有不同的内存和运行时权衡。

以上就是神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/119075.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2024-12-29 13:16
下一篇 2024-12-29 13:16

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。