https://x.com/ssig33/status/1856603789886926861
このRAGの研究、Llama2-7B/13B、Llama3-8Bとかの低パラローカルLLMがRAG出来るほど賢くないのを、何とかする手法なんじゃないのかな。
性能比較対象として上がってるのもプロプライエタリなLLMだとGPT-3.5 turboだけなんで、最近のGPT-4o-miniとかの高機能モデルは対象にしてなさそう。
そういや試しにGPT-4oに「茨城県石岡市が、Starlink衛星の通信サービスエリアから除外されている理由はなんだと考えられますか?」をRAGあり/なしで聞いてみたけど、正しい回答はまったく得られなかった。(回答が得られないことを分かってやってますけどね)
RAGだと「茨城県石岡市 Starlink サービスエリア除外 理由」をbingで検索してたけど、「質問内容をWeb検索クエリに変換する」のがLLMの限界だろうなぁという感じ。
石岡市はつくば市の近くだし、いろいろな観測施設があるし、なんか電波的な制約があって、それ関係かな?みたいな前提知識がないと、検索クエリすら作れないということ。でも我々人類がAIに求めるのは、これでしょ。
個人的には、RAGで検索クエリーを組み立てるのは、7Bモデルとかでもこの研究みたいに工夫次第で何とか出来るとは思ってる。
問題は、クエリーを検索エンジンにかけて取得した結果解釈の能力の方だな。これは7Bモデルではだいぶ厳しいと思うし、なんならGPT-4oとかでもまだまだ怪しいと思う。Google検索の「AIによる概要」だって全然デタラメだしね。
結局、RAGった結果は信頼性がなく、使えないので、ソースを自分で見にいくことになる。なら別にRAGじゃなくて、普通に検索エンジンとしてヒットしたWebページの一覧を表示してくれればそれでいい、ってなる。
そしてLLMの性能が今後どれだけ上がっても、出力を信じられない(正しくソースを解釈している保証がない)ことに違いはない。
このへんが私がRAGに可能性を感じない理由だし、あと人類がAI使ってないのも似たような理由じゃないかな。結局、LLMの出力って役にたたんのよ…