安全, 新闻 加一个字母就可以绕过AI围栏,新的漏洞:TokenBreak 2025年8月14日 / 提示词注入攻击已经成为大模型及应用的主要威胁,攻防仍在继续,就象打地鼠,你来我往。当前对提示词的主要防护方法是检测,而检测的主要方法,是BERT模型,因为BERT模型相对小一些,用于分类比较合适,性能好。整体检测的过程类似下图,Defentse Model用于检测,如果检测到注入,就阻断(图中右下),如果检测不到,就放行,图中右上。