最新研究揭示,攻击者仅需向AI训练数据中植入约250份恶意文档,即可为大型语言模型植入后门,且成功率与模型规模无关。这彻底颠覆了“模型越大越安全”的传统认知,意味着随着训练数据总量增长,攻击的相对成本实际在降低。
该攻击模式成本低廉,可能引发规模化、平民化的安全威胁。风险已从训练阶段的“数据投毒”,蔓延至部署后的“表述劫持”等新型攻击,可诱导模型输出乱码或绕过安全护栏生成有害内容,对社会信任与具体行业构成实质风险。
传统防御手段面临困境:模型设计“重性能、轻安全”,其“黑箱”特性使问题难以追溯;漫长的AI供应链一旦上游被污染,风险将传导至下游整个生态系统。
应对之道在于根本性变革,核心是推动 “安全左移” 。需将安全评估与管控前置,并贯穿AI全生命周期,构建覆盖数据源头、模型本身及应用层的纵深防御体系。同时,亟待建立统一的安全标准与产业生态,将安全内化为AI发展的基因。



