高效标记的提示注入攻击：通过自适应标记压缩引发LLM推理中断

2025年5月7日 /

作者：Yu Cui, Yujun Cai, Yiwei Wang
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/html/2504.20493v1
摘要
尽管推理型大语言模型（LLMs）在各种任务中表现出色，但它们也存在显著的安全漏洞。最近的研究发现，DeepSeek-R1模型存在一种“思维停止”的漏洞，模型生成的推理标记（tokens）可能会强行中断推理过...