フォロー

x.com/ssig33/status/1856603789
このRAGの研究、Llama2-7B/13B、Llama3-8Bとかの低パラローカルLLMがRAG出来るほど賢くないのを、何とかする手法なんじゃないのかな。

性能比較対象として上がってるのもプロプライエタリなLLMだとGPT-3.5 turboだけなんで、最近のGPT-4o-miniとかの高機能モデルは対象にしてなさそう。

個人的には、RAGで検索クエリーを組み立てるのは、7Bモデルとかでもこの研究みたいに工夫次第で何とか出来るとは思ってる。

問題は、クエリーを検索エンジンにかけて取得した結果解釈の能力の方だな。これは7Bモデルではだいぶ厳しいと思うし、なんならGPT-4oとかでもまだまだ怪しいと思う。Google検索の「AIによる概要」だって全然デタラメだしね。

結局、RAGった結果は信頼性がなく、使えないので、ソースを自分で見にいくことになる。なら別にRAGじゃなくて、普通に検索エンジンとしてヒットしたWebページの一覧を表示してくれればそれでいい、ってなる。

そしてLLMの性能が今後どれだけ上がっても、出力を信じられない(正しくソースを解釈している保証がない)ことに違いはない。

このへんが私がRAGに可能性を感じない理由だし、あと人類がAI使ってないのも似たような理由じゃないかな。結局、LLMの出力って役にたたんのよ…

そういや試しにGPT-4oに「茨城県石岡市が、Starlink衛星の通信サービスエリアから除外されている理由はなんだと考えられますか?」をRAGあり/なしで聞いてみたけど、正しい回答はまったく得られなかった。(回答が得られないことを分かってやってますけどね)

RAGだと「茨城県石岡市 Starlink サービスエリア除外 理由」をbingで検索してたけど、「質問内容をWeb検索クエリに変換する」のがLLMの限界だろうなぁという感じ。

石岡市はつくば市の近くだし、いろいろな観測施設があるし、なんか電波的な制約があって、それ関係かな?みたいな前提知識がないと、検索クエリすら作れないということ。でも我々人類がAIに求めるのは、これでしょ。

このポストよく見たら、GPT-4o-miniではLLM自身が「2007年のサウスカロライナ・ゲームコックス・フットボールチームを指揮した監督」が「スティーブ・スパリアー」であることを知識として持っていて、その上で検索クエリを生成してるように見える。

つまり厳密にはRAGしてないってことになる。だとすると、ハルシネーション予防を狙ってRAGしてるのに、意味がない気がするなー。

RAGが信用できないのって、LLMが持っている知識が出力に混ざることも一因だよね。この現象、Bing AIのときからあったし、GoogleのAIによる概要もこれ。

LLMの知識が全部正しいなら問題ないけど、そうじゃないから外部リソースを検索させるのがRAGなのに、「回答には自分の持ってる知識を絶対に使わず、すべて外部リソースから知識を得るようにせよ」とプロンプトを与えても、遵守してくれないのが現状…。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。