https://x.com/ssig33/status/1856603789886926861
このRAGの研究、Llama2-7B/13B、Llama3-8Bとかの低パラローカルLLMがRAG出来るほど賢くないのを、何とかする手法なんじゃないのかな。
性能比較対象として上がってるのもプロプライエタリなLLMだとGPT-3.5 turboだけなんで、最近のGPT-4o-miniとかの高機能モデルは対象にしてなさそう。
RAGが信用できないのって、LLMが持っている知識が出力に混ざることも一因だよね。この現象、Bing AIのときからあったし、GoogleのAIによる概要もこれ。
LLMの知識が全部正しいなら問題ないけど、そうじゃないから外部リソースを検索させるのがRAGなのに、「回答には自分の持ってる知識を絶対に使わず、すべて外部リソースから知識を得るようにせよ」とプロンプトを与えても、遵守してくれないのが現状…。