Skip to content

SecureNexusLab/llm-prompt-injection-security-handbook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 

Repository files navigation

llm-prompt-injection-security-handbook

Version Topic Language OWASP Ranking

当SQL注入的幽灵借尸还魂 —— 系统性分析大语言模型(LLM)面临的提示词注入安全威胁、攻击手法与防御架构。

📖 项目简介

《大语言模型安全威胁分析:提示词注入攻击与防御》是由 SecureNexusLab 团队独立安全研究员 Zero 编写的技术研究报告。

根据 OWASP 2025 LLM 应用 Top 10 的权威评估,提示词注入已位居十大漏洞之首。本文档不仅是攻击手法的“兵工厂”,更是防御架构的“设计图纸”。文档深入剖析了 Transformer 架构下的指令-数据混淆问题,从数学本质(注意力机制)到工程实践(GCG优化、RAG投毒),再到企业级纵深防御架构部署,全方位覆盖了当前 AI 安全领域最核心的战场。

🎯 适用读者

  • AI 安全研究人员:深入理解 Prompt Injection 的底层机制与前沿对抗技术。
  • 开发工程师:构建 RAG、Agent 系统时规避架构级信任漏洞,实施有效防御。
  • 安全分析师/红队:掌握自动化攻击发现工具链与 ASR 测量标准。

✨ 核心亮点

🔥 攻击面全景拆解

  • 直接注入:系统提示词提取(社会工程学包装、对抗性优化)、角色劫持与越狱。
  • 间接注入:RAG 架构信任危机、企业知识库沦陷、CVE-2025-32711 (EchoLeak) 零点击攻击深度剖析、MCP/工具元数据投毒。
  • 越狱家族:DAN 1.0 至 12.0 演化史、假设框架滥用、翻译攻击(低资源语言绕过)。

🧮 硬核技术解析

  • 注意力机制的数学本质:为什么 Prompt Injection 无法被“修补”,只能被“缓解”?
  • GCG (Greedy Coordinate Gradient):Token 级对抗性后缀的算法实现与跨模型迁移性分析。
  • 自动化工具链garakPyRITHarmBench 的深度使用与 promptfoo 的 CI/CD 集成。

🛡️ 企业级防御架构

  • 不可根除性证明:从图灵完备性与 Rice 定理出发,建立正确的防御预期。
  • Dual-LLM Pattern:指令理解与内容生成的物理隔离设计。
  • 四层纵深防御体系:外部边界层 → 输入处理层 → 模型执行层 → 输出审查层的动态交互设计。

📑 目录速览

  • 一、什么是大模型提示词注入?(概念本质、Transformer差异、根本属性)
  • 二、直接提示词注入(条件模型、SystemPrompt提取、任务劫持)
  • 三、间接提示词注入(RAG信任危机、知识库投毒、EchoLeak深度剖析、MCP投毒)
  • 四、越狱攻击(对齐机制分析、角色扮演、假设框架、翻译攻击、DAN家族演化、编码类攻击)
  • 五、多轮攻击与对抗性后缀(Crescendo攻击、GCG数学机制、自动化工具链)
  • 六、测量攻击成功率(ASR)(LLM-as-Judge、标准化测量协议)
  • 七、护栏绕过(输入/输出层绕过技术、分类器规避)
  • 八、防御架构部署与分析(第一性原理、Dual-LLM、上下文管理、LLM-as-Judge防御)
  • 九、局限性与剩余风险(长上下文新挑战、多智能体级联)
  • 十、未来展望(TEE、形式化验证、监管与责任演进)

📄 文档信息

属性 详情
文档版本 V1.0
编制日期 2026-04-11
编写模型 KiMi_2.5_Pro
文档类型 技术研究报告
文件格式 PDF

👤 作者与团队

  • 作者:Zero (独立安全研究员)
  • 团队:SecureNexusLab
  • 经历:某科技公司前网络安全讲师,参与腾讯朱雀实验室 AI 安全科普 Benchmark 构建,多次参与金融/教育行业众测及重保蓝队任务。

🤝 联系与交流

  • 📧 邮箱Zero001023@163.com
  • 💬 QQ交流群:701604947
  • 📱 个人微信公众号:青鸾sec
  • 📱 团队微信公众号:SecureNexusLab
  • 📺 Bilibili:SecureNexusLab
  • 🔗 相关项目LLMPromptAttackGuide

⚖️ 免责声明与许可

本项目内容仅供安全研究与学习使用。请勿将文档中的技术用于非法用途。在使用本文档信息时,请遵守您所在地区的法律法规。

About

A comprehensive technical research report on LLM Prompt Injection threats, covering direct/indirect injection, jailbreaking, adversarial suffixes, and defense-in-depth architectures.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages