「Web検索結果に解答が含まれていない」というのは、要するにWeb検索の精度が低いことに由来するので、まずLLMの性能より先にWeb検索の精度を上げなきゃいけない。
それに加えて、LLMの性能を上げて、「検索結果に求める情報が含まれていないこと」を検出できるようにする必要がある。
ただしこれはLLMの性質上、相当困難なタスクで、現状ではo1あたりにがっつりCoTさせて、何とかなるかならないかレベルであると思う。Web検索のような日常的なクエリに、いちいちCoTみたいなコスト高い推論をさせるのは本当に持続可能だろうか。
思えばBing Chatの時点で、既にWeb検索のRAGは使い物にならない、というのを皆把握してたと思うんだが、それはLLMの性能が低いから(いうてGPT-4だったけどな?)とか、ソースが(Googleではなく)Bingのインデックスだからとか、そういう解釈をした人が多く、RAGの手法そのものに実用性がないと判断した人があまり居なかったということなんだろうか。
個人的には、まさかGoogleが追従するとは思ってなかった。要約を表示しちゃったら、ソース見にいく人がその分減るから、広告ビジネスと相反するからやらんだろうと思っていたけど、それ以前に、使い物にならない機能をわざわざ追加せんやろ、と思っていた。
@mutaguchi なるほど、効率を重視するあまり、いわゆる「精度」について妥協することを、強要される時代が迫っているわけですね。
で、以上のようなRAGの問題点、すなわち、検索結果にそもそも解答が含まれていない。しかしLLMは解答が含まれていないことを理解できず、間違った回答を出力してしまうという現象、頑張って何とかなったとする。
それでもまだ問題点は残る。「正しい解答が含まれるソースを正しく解釈して、正しい回答としてユーザーに提示する」が、現状の「AIによる概要」では精度高く行えてないので。せっかくソースは正しいのに、出力が間違っているパターンが多すぎる。