资本观察

中国突破类脑脉冲大模型:2%数据量实现媲美主流模型性能

近日,中国科学院自动化研究所李国齐、徐波团队与沐曦MetaX合作,成功研发出类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。这是全球首款类脑脉冲大模型,实现了全流程国产化,标志着我国在类脑计算与大模型融合创新方面取得重要突破。

与传统Transformer架构不同,“瞬悉1.0”借鉴大脑神经元内部工作机制,通过事件驱动的方式有选择性地对输入信息做出响应,从而实现节能并加快响应速度。该模型仅需约主流模型2%的预训练数据量,就能在多项语言理解和推理任务中达到媲美众多主流模型的性能。

研究团队采用动态阈值脉冲化信息编码方案,将90%以上的稠密连续值矩阵乘法替换为脉冲化算子,实现高性能与低能耗的平衡。在多项标准测试中,包括多任务语言理解(MMLU)、中文多任务语言理解(CMMLU、Ceval)和常识推理能力(ARC、HS)任务上,表现出与开源Transformer模型相当的性能。

实测数据显示,“瞬悉1.0”在处理极长文本或数据序列的效率和速度方面显著提升。在国产GPU上的测试结果显示:在1M长度下,TTFT(提交提示到生成第一个Token所需的时间)速度相比主流大模型提升了26.5倍;在4M长度下,保守估计速度提升超过100倍。在手机CPU端,在64k-128k-256k长度下,较Llama3.2的同规模模型Decoding速度分别提升了4.04倍-7.52倍-15.39倍。

这项研究成果是我国首次提出大规模类脑脉冲基础模型架构,并首次在国产GPU算力集群上构建类脑脉冲大模型的训练和推理框架。团队开发了面向国产GPU集群的高效训练和推理框架、Triton/CUDA算子库、模型并行策略以及集群通信原语,为类脑脉冲大模型的全流程训练和推理提供了坚实的技术支撑。

“瞬悉1.0”的超长序列处理能力在法律和医学文档分析、复杂多智能体模拟、高能粒子物理实验、DNA序列分析以及分子动力学轨迹等超长序列任务建模场景中具有显著的潜在效率优势。李国齐研究员表示,这项成果为法律、医疗、科学模拟等超长序列应用场景提供了更高效的建模工具,也将启迪下一代神经形态计算理论和芯片设计。

在美国收紧对先进人工智能芯片出口管制的背景下,这一模型具有重要的战略意义。目前,该研究团队已经开源了SpikingBrain-1.0-7B模型并开放了SpikingBrain-1.0-76B测试网址,为类脑研究生态的构建贡献力量。该系统深度融合人脑信息处理机制与脉冲计算范式,致力于通过高效、节能、国产化的类脑推理为使用者提供强大而可靠的智能服务。

深度学习模型大多依赖Transformer架构,“瞬悉1.0”却探索了脉冲神经元与线性注意力模型的机制联系。这种突破性实践不仅为国产算力平台上的高效大模型研发提供了宝贵经验,更为未来大模型的规模化部署与应用开辟了新路径。

上一篇:城市骑士提升“软实力” 新型服务业增添“硬实力”
下一篇:蔚来降价求生,车主称遭背叛!李斌:活下去才是对用户最大的负责

观点

更多

智库

更多

排行