安全, 新闻 主动蜜罐防护系统:探测并确认多轮大型语言模型越狱攻击 2025年10月22日 / 作者:ChenYu Wu, Yi Wang, Yang Liao 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2510.15017v1 摘要 大型语言模型(LLMs)在多轮越狱攻击面前的脆弱性日益凸显。在这类攻击中,攻击者会通过迭代方式诱导模型产生有害行为,以此绕过单轮安全过滤器。现有防御手段主要依赖被动拒绝机制,这种机制要么难以抵御适应性攻击者...