**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:18

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:18

mutaguchi @mutaguchi@fedibird.com

2024年11月25日 16:18

https://x.com/NeoNusso/status/1860857645164548325
https://www.nhk.jp/p/athletics/ts/BN61WLWP95/blog/bl/p8K51R1ZGy/bp/p4KnGVgk85/
Google検索の「AIによる概要」のこれ、回答に用いたソースがNHKの記事なんだけど、ソースには50m走の世界記録の情報は含まれてない。

しかし、ソースには「ウサインボルトの100m走の記録は小学生女子50m走の平均記録に匹敵する」という趣旨の内容が含まれているので、そこからLLMが、質問文に対応する、偽りの回答文を作ってしまっている。

RAGには色々問題点があるが、このケースのように「Web検索結果に解答が含まれていない場合であっても、質問文と整合するような歪んだ解釈をして返答する」のが大きな問題だ。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:20

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:20

2024年11月25日 16:20

mutaguchi @mutaguchi@fedibird.com

「Web検索結果に解答が含まれていない」というのは、要するにWeb検索の精度が低いことに由来するので、まずLLMの性能より先にWeb検索の精度を上げなきゃいけない。

それに加えて、LLMの性能を上げて、「検索結果に求める情報が含まれていないこと」を検出できるようにする必要がある。

ただしこれはLLMの性質上、相当困難なタスクで、現状ではo1あたりにがっつりCoTさせて、何とかなるかならないかレベルであると思う。Web検索のような日常的なクエリに、いちいちCoTみたいなコスト高い推論をさせるのは本当に持続可能だろうか。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:26

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:26

2024年11月25日 16:26

mutaguchi @mutaguchi@fedibird.com

で、以上のようなRAGの問題点、すなわち、検索結果にそもそも解答が含まれていない。しかしLLMは解答が含まれていないことを理解できず、間違った回答を出力してしまうという現象、頑張って何とかなったとする。

それでもまだ問題点は残る。「正しい解答が含まれるソースを正しく解釈して、正しい回答としてユーザーに提示する」が、現状の「AIによる概要」では精度高く行えてないので。せっかくソースは正しいのに、出力が間違っているパターンが多すぎる。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:34

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:34

2024年11月25日 16:34

mutaguchi @mutaguchi@fedibird.com

今まで言ってきた問題点の全部をクリアしても、結局はAI出力が正しい保証は何もないし、ソースではその結論を導くためにどういう主張や議論を行っているのか、というのをユーザー自身がソースを直接読んで確認しなければならない。
…あれ、じゃあ「AIによる概要」は何の意味があるんだ？

まあRAGなんてどうせ使い物にならんのでやめましょう、と私は思う。Google含めて、巷ではRAGに幻想持ちすぎなんよ。

Web検索は、クエリーに合致するWebページをリストアップするという機能だけを愚直に提供すればいい。そこから必要な内容を探しだすというのは、LLM如きには荷が重い作業なので、素直に人間に任せるべき。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:48

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:48

2024年11月25日 16:48

mutaguchi @mutaguchi@fedibird.com

だいたい「Web検索」ってのは、指定のクエリにヒットした、全部のページをチェックするところから始まるもんだよ。

そのページに自分が求める情報があるのか、その情報は正しいのか、という検証。検証の過程でサブクエリを発行することも多々あるし。

Google検索でヒットした最初の数候補だけ見てれば答がみつかるような、単純な検索ばかりならいいけど、実際はそうじゃないからな。

「AIによる概要」というか一般にRAGというのは、「検索でヒットした最初の数候補の要約（間違いだらけ）」でしかなく、こんなのが役に立つわけがない。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:58

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月25日 16:58

2024年11月25日 16:58

mutaguchi @mutaguchi@fedibird.com

思えばBing Chatの時点で、既にWeb検索のRAGは使い物にならない、というのを皆把握してたと思うんだが、それはLLMの性能が低いから（いうてGPT-4だったけどな？）とか、ソースが（Googleではなく）Bingのインデックスだからとか、そういう解釈をした人が多く、RAGの手法そのものに実用性がないと判断した人があまり居なかったということなんだろうか。

個人的には、まさかGoogleが追従するとは思ってなかった。要約を表示しちゃったら、ソース見にいく人がその分減るから、広告ビジネスと相反するからやらんだろうと思っていたけど、それ以前に、使い物にならない機能をわざわざ追加せんやろ、と思っていた。