https://x.com/NeoNusso/status/1860857645164548325
https://www.nhk.jp/p/athletics/ts/BN61WLWP95/blog/bl/p8K51R1ZGy/bp/p4KnGVgk85/
Google検索の「AIによる概要」のこれ、回答に用いたソースがNHKの記事なんだけど、ソースには50m走の世界記録の情報は含まれてない。
しかし、ソースには「ウサインボルトの100m走の記録は小学生女子50m走の平均記録に匹敵する」という趣旨の内容が含まれているので、そこからLLMが、質問文に対応する、偽りの回答文を作ってしまっている。
RAGには色々問題点があるが、このケースのように「Web検索結果に解答が含まれていない場合であっても、質問文と整合するような歪んだ解釈をして返答する」のが大きな問題だ。
だいたい「Web検索」ってのは、指定のクエリにヒットした、全部のページをチェックするところから始まるもんだよ。
そのページに自分が求める情報があるのか、その情報は正しいのか、という検証。検証の過程でサブクエリを発行することも多々あるし。
Google検索でヒットした最初の数候補だけ見てれば答がみつかるような、単純な検索ばかりならいいけど、実際はそうじゃないからな。
「AIによる概要」というか一般にRAGというのは、「検索でヒットした最初の数候補の要約(間違いだらけ)」でしかなく、こんなのが役に立つわけがない。
@mutaguchi なるほど、効率を重視するあまり、いわゆる「精度」について妥協することを、強要される時代が迫っているわけですね。
思えばBing Chatの時点で、既にWeb検索のRAGは使い物にならない、というのを皆把握してたと思うんだが、それはLLMの性能が低いから(いうてGPT-4だったけどな?)とか、ソースが(Googleではなく)Bingのインデックスだからとか、そういう解釈をした人が多く、RAGの手法そのものに実用性がないと判断した人があまり居なかったということなんだろうか。
個人的には、まさかGoogleが追従するとは思ってなかった。要約を表示しちゃったら、ソース見にいく人がその分減るから、広告ビジネスと相反するからやらんだろうと思っていたけど、それ以前に、使い物にならない機能をわざわざ追加せんやろ、と思っていた。