一种深度学习模型
传统的SSM由于其时不变过渡机制,导致对输入依赖,而 Mamba 通过选择机制,周期性地扫描数据,来控制哪些部分的序列可以可以进入隐藏状态。
Mamba 在语言建模等方面超过了Transformer
Transformer 允许各个节点与其他节点直接交互,而Mamba是周期性的,只与序列中之前的节点进行交互。