https://www.microsoft.com/en-us/research/project/graphrag/
GraphRAG
使うといいらしい
https://x.com/s_tat1204/status/1801120519628153274
量子化
"TernaryLLM: Ternarized Large Language Model"
https://arxiv.org/abs/2406.07177
ReduceFormer:
Attention with Tensor Reduction by Summation
https://x.com/fly51fly/status/1801014387450556809
https://arxiv.org/abs/2406.07488
- ReduceFormer はトランスフォーマーに比べてモデル構造がはるかにシンプルなので、推論のレイテンシ、スループット、メモリ フットプリントの効率が向上します。
- 主なコンポーネントは次のとおりです。1) 注意の前に深さ方向の畳み込みを使用してローカル機能を抽出するマルチスケール ローカル コンテキスト学習。 2) ReduceFormer 注意は、グローバル合計と要素ごとの乗算によるテンソル削減を使用して、標準注意における行列乗算を近似およびバイパスします。
https://hamaruki.com/recurrentgemma-introducing-a-revolutionary-natural-language-processing-model/#google_vignette
>RecurrentGemmaの大きな特徴は、新しいリカレントアーキテクチャを採用していることです。このアーキテクチャにより、Gemmaと比べてメモリ使用量が少なく、長いシーケンスの生成時により高速な推論が可能になりました。
50%zaoriku
AIまわりのPOSTを構造的に整理できないかと試してたけど、うまく行ってない感じ^^;