邓丽欣艳照英伟达含量为零！华为密集模子性能并排DeepSeek-R1，纯昇腾集群历练

发布日期：2025-04-16 07:23 点击次数：201

密集模子的推理才气也能和 DeepSeek-R1 掰手腕了？邓丽欣艳照

华为期骗纯昇腾集群历练出的盘古 Ultra，在数学竞赛、编程等推理任务当中，和 R1 打得有来有回。

要害是模子参数目唯一 135B，统共历练过程零英伟达含量，而且莫得出现死亡尖峰。

通过纠正的模子架构和系统优化计策，盘古 Ultra 领有优异的性能弘扬和 52% 以上的算力期骗率。

av迅雷

况且有网友示意，历练过程中莫得出现死亡尖峰这一特征，似乎此前从未闭幕。

135B 密集模子并排 DeepSeek-R1

动作一个参数目 135B 密集模子，盘古 Ultra 达到了同法度密集模子的最优弘扬，以致不错与 DeepSeek-R1 等参数目更大的 MoE 模子竞争。

在预历练阶段模子的评测中，盘古 Ultra 在绝大部分英文基准任务和全部汉文任务上获得了最好性能，优于 Llama 405B、DeepSeek-V3 等 baseline 模子。

尤其在 MMLU、TriviaQA、GSM8K 等具有挑战性的数据集上，盘古 Ultra 展现出了超卓的谈话蚁合和推理才气。

经过教导调优后，盘古 Ultra 的性能进一步进步，尤其在 AIME 2024、MATH-500 等数学推理任务和 LiveCodeBench 等编程竞赛题上达到了 SOTA 水平。

抽象来看，盘古 Ultra 超过了包括 GPT-4o、Mistral-Large 2 等弘远模子，与 DeepSeek-R1 等 MoE 模子竞争强烈。

同期，盘古 Ultra 在 Arena Hard、MMLU-pro 等涵盖通用谈话蚁合和推理的评测中也弘扬优异。

那么，为了闭幕这么的效能，盘古 Ultra 采纳了哪些要害工夫呢？

"三明治"层归一化架构

如前文所述，盘古 Ultra 是一款 135B 参数目的密集模子，使用了 94 层的网罗结构。

盘古 Ultra 采纳了分组查询认真力（GQA）机制，包含 96 个查询头（query head）和 8 个键值头（key-value head）。

为了科罚历练超深网罗面对的不踏实性和不绝清贫等问题，盘古 Ultra 在模子架构上作念出了两个要害纠正——深度缩放的 Sandwich-Norm 层归一化和 TinyInit 参数运振荡计策。

传统的 Transformer 往往使用 Pre-LN 层归一化，但在深度模子中，Pre-LN 容易导致每个子层输出法度的波动，激发历练不踏实。

盘古 Ultra 使用的 Sandwich-Norm 层归一化，则是在残差联接前对每个子层的输出作念归一化，并把柄网罗深度对运振荡值进行缩放，从而有用摈斥了历练过程中的 loss 尖峰，使历练过程愈加赋闲。

用更容易蚁合的话说，传统格局仅在每个子层的输入进行归一化，但这种格局针对输出也进行了归一化，变成了 Pre-Norm + 子层 + Post-Norm 的"三明治"结构。

然而，只是使用 Sandwich-Norm 还不及以富饶摈斥深度模子历练中的不踏实性——跟着网罗层数的增多，每一层的输出法度仍然可能出现集结性的漂移。

为此，盘古 Ultra 在 Sandwich-Norm 的基础上，进一步引入了深度缩放机制，对 Post-Norm 中的放缩参数 γ 进行了深度有关的运振荡。

至于统共模子的运振荡，传统的运振荡往往采纳的 Xavier 运振荡格局仅有计划模子宽度，而盘古 Ultra 采纳的 TinyInit 同期依据模子深度和宽度来缩放运振荡权重的标准差。

这种运振荡样貌有助于在前向传播和反向传播过程中，防守各层梯度的方差在一个合理的范围内，幸免了梯度隐没或爆炸问题，使得历练过程愈加踏实，同期也加快了不绝。

实验标明，TinyInit 在深度模子历练中获得了更好的不绝速率和下流任务性能；同期针对 embedding 层，保握权重的标准差接近 1 也能进步历练踏实性。

另外，盘古团队也针对 Tokenizer 进行了优化，通过在通用中英文、代码、数学等不同领域鉴别进行词频统计，再同一去重，最终得到了一个兼顾领域障翳和编码效能的 153376 个 token 的均衡词表。

8192 张昇腾 NPU 历练集群

盘古 Ultra 的统共历练经过主要分为三个阶段——预历练、长险阻文彭胀和教导调优。

其中预历练又不错分为三个子阶段：

通用阶段：侧重缔造谈话蚁合和学问储备，使用了大批中英文通用语料，障翳网页、书本、百科等多个起头；

推理阶段：引入更多高质料的数学和代码数据，以增强模子的推理才气。同期还使用 instruction 数据来匡助模子学习本质任务；

退火阶段：匡助模子巩固学问和推理才气，并强化教导解任才气。大批使用问答对和东谈主类响应数据。

商榷者们采纳了基于要领和模子的数据清洗格局，并假想了 curriculum learning 计策，让模子规律渐进地学习不同难度的样本。

预历练中使用了 AdamW 优化器，并动态调度超参数。

预历练后，模子在最长 128K 的长险阻文数据上进一步历练，通过扩大 RoPE 的基频来闭幕长序列建模，以增强处理长文档的才气。

临了的教导调优阶则段使用监督微调（SFT）和强化学习（RL）来使模子更好地适当下流任务，学会本质教导并与东谈主类偏好对皆。

历练技艺方面，盘古 Ultra 使用了一个由 8192 个昇腾 AI 处理器构成的大领域打算集群。

集群中每个节点包含 8 个 NPU，通过华为高速缓存一致性互联 HCCS 以全互联的拓扑结构联接，每个 NPU 配备 64GB 内存，节点间则通过 200Gbps 的 RoCE（RDMA over Converged Ethernet）网罗互联。

为了闭幕盘古 Ultra 的高效历练，商榷团队还采纳了一套系统的并行计策和优化工夫。

在并行计策的选拔上，盘古 Ultra 抽象有计划了模子的领域、数据的特点以及硬件的拓扑，最终采纳了数据并行、张量并行、序列并行和活水线并行等多种并行样貌的组合：

128 路数据并行，将历练数据分片到不同开辟，保证了数据笼统；

8 路张量并行，期骗开辟里面高带宽切分层内张量，闭幕高效通讯；

序列并行用于处理超长序列以镌汰显存压力；

8 段活水线并行，将不同层踱步到不同开辟，变成高效的打算活水线。

在并行计策的基础上，盘古 Ultra 还从多个角度对历练系统进行了深度优化。

一方面，通过使用 ZeRO（Zero Redundancy Optimizer）踱步式优化器，将模子情状分片到不同开辟，大幅镌汰了单个开辟的内存占用，在提高数据并行度的同期，确保了每个开辟的内存干事在可接受范围内。

另一方面，商榷者们通过各式通讯和打算优化工夫，最小化了通讯支出，进步了打算效能：

通过算子和会（Kernel Fusion）将多个小算子同一，减少了内存拜谒和 kernel 启动；

通过通讯打算类似（Communication-Computation Overlapping）闭幕通讯和打算的深度交汇，荫藏通讯蔓延；

MC^2（Merged Computation & Communication）和 BOA（Batch Optimization Accelerator）鉴别对张量并行和表率化层的通讯进行了挑升优化……

在算法、工程、数据各个层面的详细优化下，盘古 Ultra 闭幕了 52% 以上的算力期骗率。

工夫呈文：

https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf

一键三连「点赞」「转发」「禁绝心」

迎接在挑剔区留住你的念念法！

— 完 —

不到一周！中国 AIGC 产业峰会不雅众正在火热报名中 � � ‍♀️

全部嘉宾已就位 � � 百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领域创变者将皆聚峰会，让更多东谈主用上 AI、用好 AI，与 AI 一同加快成长～

4 月 16 日周三，就在北京，通盘来深度求索 AI 怎么用 � �

� � 一键星标 � �

科技前沿进展逐日见邓丽欣艳照

上一篇：绫丝袜东疆新质坐蓐力产业园二期开工_设备_招商_科技

下一篇：探花眼镜妹国内商品期货夜盘收盘焦炭涨超1%