梯度消失

深度学习中,由于前层的梯度是由后层的梯度项相乘得到,梯度会逐层衰减,从而导致后层的网络学习率超过前层,BP 算法收敛缓慢,这种现象称为「梯度消失」