稀疏注意力机制

sparse attentions。收到线性注意力机制的启发,限制注意力模式,如Exphormer

虽然克服了全局注意力机制的内存开销,但事件开销依然是二次复杂度。