主动蜜罐防护系统：探测并确认多轮大型语言模型越狱攻击

作者：ChenYu Wu, Yi Wang, Yang Liao
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/html/2510.15017v1
摘要
大型语言模型（LLMs）在多轮越狱攻击面前的脆弱性日益凸显。在这类攻击中，攻击者会通过迭代方式诱导模型产生有害行为，以此绕过单轮安全过滤器。现有防御手段主要依赖被动拒绝机制，这种机制要么难以抵御适应性攻击者...

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

留言 取消回复

留言取消回复