安全,  新闻

FORGEDAN:一种用于破解对齐大型语言模型的进化框架

作者:Siyang Cheng, Gaotian Liu, Rui Mei等
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/html/2511.13548v1
摘要
大型语言模型(LLMs)的快速普及既带来了变革性应用,也引发了新的安全风险,包括绕过对齐防护机制以获取有害输出的越狱攻击。现有自动化越狱生成方法(如AutoDAN)存在变异多样性有限、适应度评估...

留言

您的邮箱地址不会被公开。 必填项已用 * 标注