Transformer¶
组件 | 解决的问题 | 关键优势 |
---|---|---|
自注意力 | 长距离依赖、并行化 | 直接建模任意词对关系 |
多头注意力 | 单一注意力模式的局限性 | 多视角捕捉特征 |
位置编码 | 自注意力缺乏顺序感知 | 显式注入位置信息 |
残差连接 + LayerNorm | 深层网络训练不稳定 | 梯度流畅传播 |
FFN | 注意力层的线性局限 | 引入非线性变换 |
编码器-解码器 | 序列到序列任务(如翻译) | 分离上下文编码与生成 |
最后更新: 2025-08-19 17:28:13
创建日期: 2025-08-19 17:28:13
创建日期: 2025-08-19 17:28:13
广告
人要恰饭的嘛🤑🤑