Transformer

深度学习中一个出名的序列分析架构。在计算机视觉自然语言处理有广泛应用。

基于注意力的序列建模架构。

其中的注意力机制假设,无论位置关系如何,每个 token 之间都存在链接

缺乏传导偏差,因此恰当的位置编码对其行呢个是非常关键的。