安全,  新闻

主动蜜罐防护系统:探测并确认多轮大型语言模型越狱攻击

作者:ChenYu Wu, Yi Wang, Yang Liao
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/html/2510.15017v1
摘要
大型语言模型(LLMs)在多轮越狱攻击面前的脆弱性日益凸显。在这类攻击中,攻击者会通过迭代方式诱导模型产生有害行为,以此绕过单轮安全过滤器。现有防御手段主要依赖被动拒绝机制,这种机制要么难以抵御适应性攻击者...

留言

您的邮箱地址不会被公开。 必填项已用 * 标注