安全, 新闻 学习检测大型视觉语言模型中的未知越狱攻击:一种统一且准确的方法 2025年8月18日 / 作者:Shuang Liang, Zhihao Xu, Jialing Tao, Hui Xue, Xiting Wang 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2508.09201v1 摘要 尽管进行了大量的对齐工作,大型视觉语言模型(LVLMs)仍然容易受到越狱攻击,存在严重的安全隐患。尽管最近的检测工作转向了内部表示,因为它们包含丰富...