基于内容的攻击：自动化事实核查是一个人工智能安全问题

作者：Michael Schlichtkrull
译者：知道创宇404实验室翻译组
原文链接：https://arxiv.org/pdf/2510.11238
摘要
当人工智能代理检索外部文档并进行推理时，攻击者可能会操纵它们接收的数据以破坏其行为。先前的研究探讨了间接提示注入攻击，即攻击者注入恶意指令。我们认为，操纵代理并不需要注入指令——攻击者反而可以提供带有偏见、误导性或虚假的信息。我...

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

留言 取消回复

留言取消回复