transformer 中的 attention-技术圈

来源：知乎—皮特潘

地址：https://zhuanlan.zhihu.com/p/444811538

大火的transformer 本质就是：

使用attention机制的seq2seq。

所以它的核心就是attention机制，今天就讲attention。直奔代码VIT-pytorch：

https://github.com/lucidrains/vit-pytorch/blob/main/vit_pytorch/vit.py

中的

class Attention(nn.Module):    def __init__(self, dim, heads = 8, dim_head = 64, dropout = 0.):        super().__init__()        inner_dim = dim_head *  heads        project_out = not (heads == 1 and dim_head == dim)
        self.heads = heads        self.scale = dim_head ** -0.5
        self.attend = nn.Softmax(dim = -1)        self.to_qkv = nn.Linear(dim, inner_dim * 3, bias = False)
        self.to_out = nn.Sequential(            nn.Linear(inner_dim, dim),            nn.Dropout(dropout)        ) if project_out else nn.Identity()
    def forward(self, x):        qkv = self.to_qkv(x).chunk(3, dim = -1)        q, k, v = map(lambda t: rearrange(t, 'b n (h d) -> b h n d', h = self.heads), qkv)
        dots = torch.matmul(q, k.transpose(-1, -2)) * self.scale
        attn = self.attend(dots)
        out = torch.matmul(attn, v)        out = rearrange(out, 'b h n d -> b n (h d)')        return self.to_out(out)

看吧！就是这么简单。今天就彻底搞懂这个东西。

先记住attention的这么几个点：

attention和CNN、RNN、FC、GCN等都是一个级别的东西，用来提取特征；既然是特征提取，一定有权重（W+B）存在。
attention的优点：可以像CNN一样并行运算 + 像RNN一样通过一层就拥有全局资讯。有一个东西也可以做到，那就是FC，但是FC有个弱点：对输入尺寸有限制，说白了不好适应可变输入数据，这对于序列无疑是非常不友好的。
可以像CNN一样并行运算，其实CNN运算也是通过im2col或winograd等转化为矩阵运算的。
RNN不能并行，所以通常它处理的数据有“时序”这个特点。既然是“时序”，那么就不是同一个时刻完成的，所以不能并行化。

综上所述：attention优点 = CNN并行+RNN全局资讯+对输入尺寸（时序长度维度上）没有限制。

如果你能创造一个拥有上面三点优点的东西出来，你也可以引领潮流。

然后回到代码，再熟悉这么几个设置：