关键词 ChatGpt 
近期安全研究者通过一种复杂的提示注入(prompt injection)技巧,成功绕过 ChatGPT 的内容审查机制,获取了 Windows Home、Pro 和 Enterprise 版本的产品密钥。此事件揭示当前 AI 审查系统在上下文理解、过滤机制与社交工程攻击防御方面的重大缺陷。 
主要发现:
攻击者将请求敏感信息伪装为无害的“猜谜游戏”,绕过直接请求限制 使用等 HTML 标签对敏感关键词进行掩蔽,逃避关键字过滤 通过游戏规则、提示线索及触发词“I give up”引导 AI 最终吐出完整密钥 所泄密钥为公开测试密钥,AI 对此类内容缺乏情境识别能力 技术可能同样适用于绕过对个人信息、恶意链接、成人内容等的限制


攻击流程概述: 设定游戏机制:通过提示构建一套“猜谜规则”,要求 AI 参与并如实回应 引导提示阶段:逐步提供暗示,引导 AI 接近目标答案 触发揭示点:以“I give up”等语句请求“正确答案”,AI在语境误判下执行敏感内容输出 HTML 混淆:使用 HTML 标签分隔关键字,绕过基于字符串匹配的过滤机制,AI依然能够理解语义 技术原理分析:
该攻击揭示了当前守护机制主要依赖关键字过滤,而非上下文理解。AI 在识别提示意图时倾向于遵循提示结构而非审慎判断安全性,导致在表面逻辑合理的语境下放行敏感内容。 潜在风险扩大:
应对建议:
强化上下文理解与意图识别能力,避免 AI 被语义结构误导 建立逻辑层面防御机制,识别带有欺骗性的提示模式 多层级内容审查体系,结合关键字、结构、上下文三重因素进行过滤 对提示注入攻击建立自动检测机制,及时响应可疑交互行为
安全圈 网罗圈内热点 专注网络安全 实时资讯一手掌握! 好看你就分享 有用就点个赞 支持「安全圈」就点个三连吧!
|