资本观察

AI安全“蚁穴”:250份恶意文档如何动摇大模型的信任根基?

最新研究揭示,攻击者仅需向AI训练数据中植入约250份恶意文档,即可为大型语言模型植入后门,且成功率与模型规模无关。这彻底颠覆了“模型越大越安全”的传统认知,意味着随着训练数据总量增长,攻击的相对成本实际在降低。

该攻击模式成本低廉,可能引发规模化、平民化的安全威胁。风险已从训练阶段的“数据投毒”,蔓延至部署后的“表述劫持”等新型攻击,可诱导模型输出乱码或绕过安全护栏生成有害内容,对社会信任与具体行业构成实质风险。

传统防御手段面临困境:模型设计“重性能、轻安全”,其“黑箱”特性使问题难以追溯;漫长的AI供应链一旦上游被污染,风险将传导至下游整个生态系统。

应对之道在于根本性变革,核心是推动 “安全左移” 。需将安全评估与管控前置,并贯穿AI全生命周期,构建覆盖数据源头、模型本身及应用层的纵深防御体系。同时,亟待建立统一的安全标准与产业生态,将安全内化为AI发展的基因。

上一篇:中国贸易顺差破万亿美元,出口版图在“关税战”中重塑
下一篇:万亿美元顺差震撼世界:破纪录数据背后的大博弈

观点

更多

智库

更多

排行