AI安全“蚁穴”：250份恶意文档如何动摇大模型的信任根基？

最新研究揭示，攻击者仅需向AI训练数据中植入约250份恶意文档，即可为大型语言模型植入后门，且成功率与模型规模无关。这彻底颠覆了“模型越大越安全”的传统认知，意味着随着训练数据总量增长，攻击的相对成本实际在降低。

该攻击模式成本低廉，可能引发规模化、平民化的安全威胁。风险已从训练阶段的“数据投毒”，蔓延至部署后的“表述劫持”等新型攻击，可诱导模型输出乱码或绕过安全护栏生成有害内容，对社会信任与具体行业构成实质风险。

传统防御手段面临困境：模型设计“重性能、轻安全”，其“黑箱”特性使问题难以追溯；漫长的AI供应链一旦上游被污染，风险将传导至下游整个生态系统。

应对之道在于根本性变革，核心是推动 “安全左移” 。需将安全评估与管控前置，并贯穿AI全生命周期，构建覆盖数据源头、模型本身及应用层的纵深防御体系。同时，亟待建立统一的安全标准与产业生态，将安全内化为AI发展的基因。

资本观察