为什么Transformer要用LayerNorm？-技术圈

来源：知乎

文章仅作学术分享，著作权归属原作者，侵删

深海（阿里巴巴算法工程师）回答：

Batch Normalization 也是可以用的，但为什么不用，我们来分析一下问题。

我们回到RNN，RNN其实也能够使用Batch Normalization ，但它为什么不用？是因为变长吗，变长序列我们也是能够padding到同一个长度进行训练的，至于为什么不用，是因为BN对一个Batch中对应位置的分量进行归一化，这就存在一定的问题，因为一个Batch中对应位置的分量不一定有意义，它可能是padding的结果。

实际上LSTM训练的时候我们会把一个batch中的序列按照长度降序，长度短的计算完了就不带它继续计算了，相当于batch size缩小了，batch size越小，BN的意义也就越小了。

在Transformer中也是一样的，比如我们用绝对位置编码的BERT，把序列长度都padding或者裁剪到512，那么不存在变长问题，也不存在LSTM中batch缩小的问题，那么为什么不用BN而是用LN呢？我的理解是因为虽然序列长度一致了，但是好多embedding是没有意义的，有意义的embedding不应该和它们的分布一致，如果BN会导致有意义的embedding损失信息，所以embedding你就自己和自己归一化吧。

所以，可以用BN，但是可能LN更合适。

有想法欢迎讨论。

补充一下，Normalization 的作用很明显，把数据拉回标准正态分布，因为神经网络的Block大部分都是矩阵运算，一个向量经过矩阵运算后值会越来越大，为了网络的稳定性，我们需要及时把值拉回正态分布。