资本观察

DeepSeek元旦首发新架构论文,梁文锋亲署mHC突破大模型训练瓶颈

2026年元旦,DeepSeek公司公布了一项名为mHC(流形约束超连接)的新架构研究成果。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

论文的三位第一作者分别是Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)和Huanqi Cao。值得注意的是,DeepSeek创始人兼CEO梁文锋也出现在作者名单中。

01 架构瓶颈:超连接带来的双刃剑效应

近年来,以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了Transformer架构中普遍存在的残差连接范式。

这种技术虽然能带来显著的性能提升,但也从根本上损害了残差连接固有的恒等映射属性,导致严重的训练不稳定性和受限的可扩展性,同时产生显著的内存访问开销。

传统Transformer的残差连接遵循x + F(x)结构,其核心优势在于通过恒等映射保证信号的无损传输和训练稳定性。但它的瓶颈在于信息通道宽度受限于隐藏层维度C。

随着模型规模扩大,研究人员开始尝试通过加宽残差流来增强模型能力。但这带来了两个严重问题:数值不稳定性和系统开销增加。

在原始的HC方法中,连接矩阵是自由学习的,没有约束。这导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,使模型越深越难训练。

02 技术突破:流形约束恢复恒等映射

DeepSeek团队提出的mHC是一个通用框架,将HC的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化确保效率。

mHC的核心创新在于利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,也就是双随机矩阵流形。这一方法使信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性。

选择双拟随机矩阵作为约束流形具有多重理论优势。首先,其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题。

其次,双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性。

该架构还通过对输入映射和输出映射施加非负约束,防止因正负系数复合导致的信号抵消。

03 性能验证:大模型训练稳定与高效并行

在实验中,研究团队重点关注了一个27B参数规模的模型。实验结果显示,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比最终损失降低了0.021。

梯度范数分析进一步证实了这种稳定性提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓。

在系统性能方面,团队为mHC量身定制了高效基础设施设计,在扩展率n=4的情况下,大模型训练时间开销仅增加6.7%。这一成果得益于多项优化措施的结合。

团队实施了算子融合技术,重新调整RMSNorm顺序并采用混合精度策略,同时开发了统一算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销。

在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算的策略,也有效减轻了n流设计带来的内存压力。

04 多维度验证:稳定基础上的性能全面超越

在多项下游基准测试中,mHC表现出全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC。

特别是在增强模型推理能力方面,mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益。这一成果表明,恢复恒等映射属性不仅解决了稳定性问题,还能进一步提高模型能力。

DeepSeek团队还进行了规模扩展实验,涵盖了3B、9B到27B参数规模的模型。实验轨迹显示,即使在更高的计算预算下,mHC的性能优势依然稳健地保持,仅表现出轻微衰减。

对于训练过程中的动态变化,研究团队考察了3B模型的Token扩展曲线,进一步验证了mHC在大规模场景下的有效性。

该研究还证实,mHC作为一个灵活的通用框架,不仅适用于语言模型,也为基础模型的拓扑架构演进指明了新的方向。


论文摘要显示,团队预计mHC作为HC的灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进提出有希望的方向。

梁文锋作为公司创始人的直接参与,表明这项研究在DeepSeek技术路线图上的重要地位。当全球AI竞争聚焦于大模型训练效率和稳定性时,这项元旦发布的研究可能会成为行业发展的一个关键技术节点。

上一篇:山姆、小象被指货源趋同,会员店核心价值遭质疑
下一篇:福瑞医科整改“交卷” 港股上市计划与监管压力并行

观点

更多

智库

更多

排行