Transformer模型综述：基于注意力机制的创新与应用

该思维导图综述了Transformer模型的核心内容。介绍了其提出背景，包括传统RNN和CNN的局限性，强调了完全基于注意力机制的创新点。模型架构方面，阐述了编码器-解码器结构、注意力机制及位置编码的功能。训练细节中，提到大规模平行语料库和优化策略如Adam优化器和标签平滑。实验结果显示，Transformer在机器翻译等任务上取得了最佳翻译质量和显著降低的训练成本，表明其在各类NLP任务中的强大适应性。

源码

# Transformer模型综述
## 模型介绍
### 提出背景
#### 序列转换任务
- 递归神经网络 RNN 和卷积神经网络 CNN 是主流
- 存在并行化困难
- 长序列处理效率低
#### 注意力机制
- 广泛使用
- 通常与RNN结合
### 创新点
- 完全基于注意力机制
- 摒弃传统递归和卷积结构
- 引入自注意力机制 self_attention
  - 并行计算能力
  - 训练时间大幅减少
  
## 模型架构
### 编码器_解码器结构
#### 结构堆叠
- 编码器和解码器由多个相同的层堆叠而成
#### 子层组成
- 多头自注意力机制
- 全连接前馈网络
#### 性能增强
- 使用残差连接和层归一化
### 注意力机制
#### 缩放点积注意力 Scaled Dot_Product Attention
- 查询向量与键向量的点积
- 对结果进行缩放和平滑处理
#### 多头注意力 Multi_Head Attention
- 输入映射到多个不同维度的空间
- 在每个空间独立执行注意力机制
- 拼接输出
#### 应用实例
- 编码器_解码器注意力
  - 输入与输出之间的联系
- 编码器中的自注意力
  - 每个位置关注整个输入序列
- 解码器中的自注意力
  - 自回归性质的保障
### 位置编码 Positional Encoding
- 引入正弦和余弦函数形式
- 解决无序性问题
- 学习相对位置信息
- 有助于扩展到更长序列

## 训练细节
### 数据准备
#### 大规模平行语料库
- WMT2014英德、英法翻译任务
#### 字节对编码 Byte Pair Encoding, BPE
- 用于词汇表构建
### 优化策略
#### Adam优化器
- 动态调整学习率
#### 标签平滑 Label Smoothing
- 提高泛化能力
### 正则化手段
- Dropout
  - 防止过拟合

## 实验结果
### 翻译质量
#### 机器翻译任务表现
- 达到最佳BLEU分数
- 训练成本显著降低
### 其他任务表现
- 英语句法分析等
- 证明泛化能力

## 结论
- Transformer通过引入纯粹的注意力机制
  - 解决传统模型在并行性和长距离依赖捕捉不足
- 提高翻译质量和效率
- 在NLP任务中展示强大的适应性

图片