AutoBackdoor：通过大语言模型代理实现自动化后门攻击

2025年11月25日 /

作者：Yige Li, Zhe Li, Wei Zhao, Nay Myat Min, Hanxun Huang, Xingjun Ma, Jun Sun
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/html/2511.16709v1
摘要
后门攻击对大型语言模型（LLMs）的安全部署构成严重威胁，攻击者可通过该攻击植入由特定输入触发的隐藏行为。然而，现有...