模式增强型多轮越狱攻击：利用大型语言模型中的结构性漏洞

作者：Ragib Amin Nihal, Rui Wen等
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/html/2510.08859v1
摘要
大型语言模型（LLMs）在多轮越狱攻击面前仍存在漏洞，这类攻击会利用对话上下文逐步绕过安全约束。它们通过不同的对话方式（如学术讨论、个人经历分享、假设场景构建）针对各类危害类别（如恶意软件生成、骚扰行为、欺诈活动...

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

留言 取消回复

留言取消回复