针对大型语言模型的投毒攻击仅需近乎固定数量的投毒样本

作者：Alexandra Souly, Javier Rando等
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/html/2510.07192v1
摘要
投毒攻击可通过向大型语言模型（LLMs）的训练数据中注入恶意文档，破坏其安全性。现有研究在探讨预训练阶段投毒问题时，均假设攻击者能控制训练语料库的一定比例。然而，对于大型模型而言，即便是较小的比例，也意味...

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

留言 取消回复

留言取消回复