大型语言模型安全风险及对抗攻击方法

该思维导图概述了大型语言模型（LLM）的安全风险，涵盖对抗攻击（基于梯度的扰动、替换修改、对抗性提示生成）、后门攻击（指令、思维链、代理、组合、资源高效）、越狱攻击（黑盒、白盒）、数据抽取攻击以及自主LLM的风险（目标驱动、行为操控、环境适应）。图中详细列举了各种攻击方法及其分类，并涉及相应防御策略的讨论。

源码

# 大型语言模型安全风险及对抗攻击方法
## LLM对抗攻击
### 基于梯度的扰动攻击
#### HotFlip
#### Fast Gradient Sign Method (FGSM)
#### Projected Gradient Descent (PGD)
### 基于替换的修改攻击
#### BERT_Attack
#### TextFooler
#### PERT
### 对抗性提示生成攻击
#### GCG Greedy Coordinate Gradient
#### Universal Adversarial Triggers
## LLM后门攻击
### 指令后门攻击
#### 虚拟提示注入（VPI）
#### 触发条件设计
### 思维链后门攻击
#### BadChain 攻击方法
#### 思维链隐写
### 代理后门攻击
#### Sleeper Agent 攻击
### 组合后门攻击
#### 多触发器后门攻击
#### 级联后门攻击
### 资源高效后门攻击
#### TrojFM 攻击方法
#### LoRA_based 后门攻击
#### 微调后门攻击
## LLM越狱攻击
### 鲁棒性与越狱攻击分类体系
#### 攻击者访问级别
##### 内部攻击者
##### 外部攻击者
#### 攻击策略类别
##### 被动攻击
##### 主动攻击
### 黑盒攻击
#### 意图操控
#### 上下文利用
#### 编码与隐写
#### 场景伪装
#### 角色扮演
#### 提示分解
#### 语言特定漏洞
#### 自动化生成
### 白盒攻击
#### 贪婪坐标梯度 GCG
#### 动量梯度改进
#### 约束优化
#### 自适应 token 替换
#### 注意力分数操纵
#### 微调生成有害后缀
#### 概率分布操纵
#### 改变解码策略或微调
## LLM数据抽取攻击
### 研究背景与意义
### 记忆与可抽取性的理论基础
### 数据抽取方法论
#### 白盒抽取方法
##### 模型参数分析
##### 记忆检索
#### 黑盒抽取方法
##### 输入输出分析
##### 模型行为推测
### 验证与量化方法
#### 直接匹配
#### 搜索引擎辅助验证
#### 困惑度与压缩熵比
### 挑战与应对策略
#### 输出多样性与样本冗余
#### 对抗对齐与拒绝策略
#### 验证准确性与误判问题
## 自主LLM的风险
### 自主人工智能风险的基本概念与演变
#### LLMs出现前的普遍观点
#### 当前的观点
### 自主人工智能风险的主要类型
#### 目标驱动风险
##### 策略偏差
##### 目标误导
#### 行为操控风险
##### 行为操控技术
##### 社会工程学
#### 环境适应风险
##### 环境变化响应
##### 适应性失控
### 自主人工智能风险的评估方法
#### 风险识别
#### 风险分析
#### 风险控制措施

图片