FORGEDAN：一种用于破解对齐大型语言模型的进化框架

作者：Siyang Cheng, Gaotian Liu, Rui Mei等
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/html/2511.13548v1
摘要
大型语言模型（LLMs）的快速普及既带来了变革性应用，也引发了新的安全风险，包括绕过对齐防护机制以获取有害输出的越狱攻击。现有自动化越狱生成方法（如AutoDAN）存在变异多样性有限、适应度评估...

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

留言 取消回复

留言取消回复