安全, 新闻 FORGEDAN:一种用于破解对齐大型语言模型的进化框架 2025年11月21日 / 作者:Siyang Cheng, Gaotian Liu, Rui Mei等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2511.13548v1 摘要 大型语言模型(LLMs)的快速普及既带来了变革性应用,也引发了新的安全风险,包括绕过对齐防护机制以获取有害输出的越狱攻击。现有自动化越狱生成方法(如AutoDAN)存在变异多样性有限、适应度评估...