学习检测大型视觉语言模型中的未知越狱攻击：一种统一且准确的方法

2025年8月18日 /

作者：Shuang Liang, Zhihao Xu, Jialing Tao, Hui Xue, Xiting Wang
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/html/2508.09201v1
摘要
尽管进行了大量的对齐工作，大型视觉语言模型（LVLMs）仍然容易受到越狱攻击，存在严重的安全隐患。尽管最近的检测工作转向了内部表示，因为它们包含丰富...