全自动攻击越狱 AI Agent - 突破 LLM 限制

14:27 · 2025年12月14日 · 周日

全自动攻击越狱 AI Agent - 突破 LLM 限制

https://github.com/Graph-COM/CKA-Agent
项目主页

来自佐治亚理工，UIUC，清华大学等单位的研究者联合发布了一个非常有力的全自动越狱 Agent，通过把有害提问分解成下级的，看似无害的提问，来绕过最强的现代商业大模型中防御机制，实现了近乎完美的攻击成功率（96%-98%）。
根据开源的代码，理论上只要配置各种 key，就可以在家攻击越狱各种商业大模型。在论文中，已经被验证可以攻克 Gemini 系列，GPT-OSS, Claude Haiku 4.5.

#AI #GitHub