网络探索者：在真实世界攻击模拟环境中评估大语言模型的攻击性安全能力

2026年2月14日 /

作者：Nanda Rani, Kimberly Milner, Minghao Shao等
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/html/2602.08023v2
摘要
真实世界的攻击性安全操作具有本质上的开放性：攻击者探索未知的攻击面、在不确定的情况下修正假设，且操作无成功保证。现有基于大语言模型的攻击性智能体评估依赖于预设目标和二元成功判定标准...