DeepSeek元旦首发新架构论文，梁文锋亲署mHC突破大模型训练瓶颈

2026年元旦，DeepSeek公司公布了一项名为mHC（流形约束超连接）的新架构研究成果。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其显著的性能增益。

论文的三位第一作者分别是Zhenda Xie（解振达）、Yixuan Wei（韦毅轩）和Huanqi Cao。值得注意的是，DeepSeek创始人兼CEO梁文锋也出现在作者名单中。

01 架构瓶颈：超连接带来的双刃剑效应

近年来，以超连接为代表的研究通过扩展残差流宽度和多样化连接模式，拓展了Transformer架构中普遍存在的残差连接范式。

这种技术虽然能带来显著的性能提升，但也从根本上损害了残差连接固有的恒等映射属性，导致严重的训练不稳定性和受限的可扩展性，同时产生显著的内存访问开销。

传统Transformer的残差连接遵循x + F(x)结构，其核心优势在于通过恒等映射保证信号的无损传输和训练稳定性。但它的瓶颈在于信息通道宽度受限于隐藏层维度C。

随着模型规模扩大，研究人员开始尝试通过加宽残差流来增强模型能力。但这带来了两个严重问题：数值不稳定性和系统开销增加。

在原始的HC方法中，连接矩阵是自由学习的，没有约束。这导致信号在经过多层传播后，数值会“爆炸”或“消失”，破坏了恒等映射的特性，使模型越深越难训练。

02 技术突破：流形约束恢复恒等映射

DeepSeek团队提出的mHC是一个通用框架，将HC的残差连接空间投影到特定的流形上，以恢复恒等映射属性，同时结合严格的基础设施优化确保效率。

mHC的核心创新在于利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上，也就是双随机矩阵流形。这一方法使信号传播变为特征的“凸组合”，从数学上严格保证了信号范数的稳定性。

选择双拟随机矩阵作为约束流形具有多重理论优势。首先，其谱范数有界且不超过1，这意味着学习到的映射是非扩张的，可有效缓解梯度爆炸问题。

其次，双拟随机矩阵集对矩阵乘法具有封闭性，确保了跨多层的复合残差映射仍保持双拟随机，从而可在整个模型深度上维持稳定性。

该架构还通过对输入映射和输出映射施加非负约束，防止因正负系数复合导致的信号抵消。

03 性能验证：大模型训练稳定与高效并行

在实验中，研究团队重点关注了一个27B参数规模的模型。实验结果显示，mHC有效缓解了HC中观察到的训练不稳定问题，与基线模型相比最终损失降低了0.021。

梯度范数分析进一步证实了这种稳定性提升：mHC表现出明显优于HC的行为，保持了与基线模型相当的稳定轮廓。

在系统性能方面，团队为mHC量身定制了高效基础设施设计，在扩展率n=4的情况下，大模型训练时间开销仅增加6.7%。这一成果得益于多项优化措施的结合。

团队实施了算子融合技术，重新调整RMSNorm顺序并采用混合精度策略，同时开发了统一算子，将多次扫描和矩阵乘法融合，减少内存带宽瓶颈和算子启动开销。

在前向传播后丢弃mHC算子的中间激活，并在反向传播时即时重新计算的策略，也有效减轻了n流设计带来的内存压力。

04 多维度验证：稳定基础上的性能全面超越

在多项下游基准测试中，mHC表现出全面的性能提升，一致性地优于基线模型，并在大多数任务上超过了HC。

特别是在增强模型推理能力方面，mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益。这一成果表明，恢复恒等映射属性不仅解决了稳定性问题，还能进一步提高模型能力。

DeepSeek团队还进行了规模扩展实验，涵盖了3B、9B到27B参数规模的模型。实验轨迹显示，即使在更高的计算预算下，mHC的性能优势依然稳健地保持，仅表现出轻微衰减。

对于训练过程中的动态变化，研究团队考察了3B模型的Token扩展曲线，进一步验证了mHC在大规模场景下的有效性。

该研究还证实，mHC作为一个灵活的通用框架，不仅适用于语言模型，也为基础模型的拓扑架构演进指明了新的方向。

论文摘要显示，团队预计mHC作为HC的灵活且实用的扩展，将有助于更深入地理解拓扑架构设计，并为基础模型的演进提出有希望的方向。

梁文锋作为公司创始人的直接参与，表明这项研究在DeepSeek技术路线图上的重要地位。当全球AI竞争聚焦于大模型训练效率和稳定性时，这项元旦发布的研究可能会成为行业发展的一个关键技术节点。

资本观察

01 架构瓶颈：超连接带来的双刃剑效应

02 技术突破：流形约束恢复恒等映射

03 性能验证：大模型训练稳定与高效并行

04 多维度验证：稳定基础上的性能全面超越

观点

AI替代岗位即可解雇员工？北京一纸裁决划清法律界限

英伟达计划春节前向中国出货H200芯片，最终需获中方批准

“国产GPU第一股”摩尔线程今日申购，114.28元发行价成年内“最贵新股”

荷兰劫夺安世半导体，中国须坚决反击

贾国龙清空社交账号，西贝战略转向前兆？

智库

宏芯宇闯关港股：核心产品单价腰斩57% 大客户与供应商身份重叠引关注

DeepSeek元旦首发新架构论文，梁文锋亲署mHC突破大模型训练瓶颈

印度政府的300亿美元天价索赔：一场天然气纠纷背后的国家利益与商业风险博弈

麦济生物冲刺港股IPO：两年研发烧钱超3亿，核心产品仍未上市

排行

1“国产GPU第一股”摩尔线程今日申购，114.28元发行价成年内“最贵新股”

2雷军：小米最关键的改变发生在2020年

3AI替代岗位即可解雇员工？北京一纸裁决划清法律界限

4英伟达计划春节前向中国出货H200芯片，最终需获中方批准

5荷兰劫夺安世半导体，中国须坚决反击