安全,  新闻

学习检测大型视觉语言模型中的未知越狱攻击:一种统一且准确的方法

作者:Shuang Liang, Zhihao Xu, Jialing Tao, Hui Xue, Xiting Wang
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/html/2508.09201v1
摘要
尽管进行了大量的对齐工作,大型视觉语言模型(LVLMs)仍然容易受到越狱攻击,存在严重的安全隐患。尽管最近的检测工作转向了内部表示,因为它们包含丰富...

留言

您的邮箱地址不会被公开。 必填项已用 * 标注