安全,  新闻

针对大型语言模型的投毒攻击仅需近乎固定数量的投毒样本

作者:Alexandra Souly, Javier Rando等
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/html/2510.07192v1
摘要
投毒攻击可通过向大型语言模型(LLMs)的训练数据中注入恶意文档,破坏其安全性。现有研究在探讨预训练阶段投毒问题时,均假设攻击者能控制训练语料库的一定比例。然而,对于大型模型而言,即便是较小的比例,也意味...

留言

您的邮箱地址不会被公开。 必填项已用 * 标注