ReduceFormer:
Attention with Tensor Reduction by Summation
https://x.com/fly51fly/status/1801014387450556809
https://arxiv.org/abs/2406.07488
- ReduceFormer はトランスフォーマーに比べてモデル構造がはるかにシンプルなので、推論のレイテンシ、スループット、メモリ フットプリントの効率が向上します。
- 主なコンポーネントは次のとおりです。1) 注意の前に深さ方向の畳み込みを使用してローカル機能を抽出するマルチスケール ローカル コンテキスト学習。 2) ReduceFormer 注意は、グローバル合計と要素ごとの乗算によるテンソル削減を使用して、標準注意における行列乗算を近似およびバイパスします。