深度学习中一个出名的序列分析架构。在计算机视觉和自然语言处理有广泛应用。
基于注意力的序列建模架构。
其中的注意力机制假设,无论位置关系如何,每个 token 之间都存在链接
缺乏传导偏差,因此恰当的位置编码对其行呢个是非常关键的。