x.com/ssig33/status/1856603789
このRAGの研究、Llama2-7B/13B、Llama3-8Bとかの低パラローカルLLMがRAG出来るほど賢くないのを、何とかする手法なんじゃないのかな。

性能比較対象として上がってるのもプロプライエタリなLLMだとGPT-3.5 turboだけなんで、最近のGPT-4o-miniとかの高機能モデルは対象にしてなさそう。

フォロー

このポストよく見たら、GPT-4o-miniではLLM自身が「2007年のサウスカロライナ・ゲームコックス・フットボールチームを指揮した監督」が「スティーブ・スパリアー」であることを知識として持っていて、その上で検索クエリを生成してるように見える。

つまり厳密にはRAGしてないってことになる。だとすると、ハルシネーション予防を狙ってRAGしてるのに、意味がない気がするなー。

RAGが信用できないのって、LLMが持っている知識が出力に混ざることも一因だよね。この現象、Bing AIのときからあったし、GoogleのAIによる概要もこれ。

LLMの知識が全部正しいなら問題ないけど、そうじゃないから外部リソースを検索させるのがRAGなのに、「回答には自分の持ってる知識を絶対に使わず、すべて外部リソースから知識を得るようにせよ」とプロンプトを与えても、遵守してくれないのが現状…。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。