新しいものを表示

だいたい「Web検索」ってのは、指定のクエリにヒットした、全部のページをチェックするところから始まるもんだよ。

そのページに自分が求める情報があるのか、その情報は正しいのか、という検証。検証の過程でサブクエリを発行することも多々あるし。

Google検索でヒットした最初の数候補だけ見てれば答がみつかるような、単純な検索ばかりならいいけど、実際はそうじゃないからな。

「AIによる概要」というか一般にRAGというのは、「検索でヒットした最初の数候補の要約(間違いだらけ)」でしかなく、こんなのが役に立つわけがない。

スレッドを表示

今まで言ってきた問題点の全部をクリアしても、結局はAI出力が正しい保証は何もないし、ソースではその結論を導くためにどういう主張や議論を行っているのか、というのをユーザー自身がソースを直接読んで確認しなければならない。
…あれ、じゃあ「AIによる概要」は何の意味があるんだ?

まあRAGなんてどうせ使い物にならんのでやめましょう、と私は思う。Google含めて、巷ではRAGに幻想持ちすぎなんよ。

Web検索は、クエリーに合致するWebページをリストアップするという機能だけを愚直に提供すればいい。そこから必要な内容を探しだすというのは、LLM如きには荷が重い作業なので、素直に人間に任せるべき。

スレッドを表示

で、以上のようなRAGの問題点、すなわち、検索結果にそもそも解答が含まれていない。しかしLLMは解答が含まれていないことを理解できず、間違った回答を出力してしまうという現象、頑張って何とかなったとする。

それでもまだ問題点は残る。「正しい解答が含まれるソースを正しく解釈して、正しい回答としてユーザーに提示する」が、現状の「AIによる概要」では精度高く行えてないので。せっかくソースは正しいのに、出力が間違っているパターンが多すぎる。

スレッドを表示

「Web検索結果に解答が含まれていない」というのは、要するにWeb検索の精度が低いことに由来するので、まずLLMの性能より先にWeb検索の精度を上げなきゃいけない。

それに加えて、LLMの性能を上げて、「検索結果に求める情報が含まれていないこと」を検出できるようにする必要がある。

ただしこれはLLMの性質上、相当困難なタスクで、現状ではo1あたりにがっつりCoTさせて、何とかなるかならないかレベルであると思う。Web検索のような日常的なクエリに、いちいちCoTみたいなコスト高い推論をさせるのは本当に持続可能だろうか。

スレッドを表示

x.com/NeoNusso/status/18608576
nhk.jp/p/athletics/ts/BN61WLWP
Google検索の「AIによる概要」のこれ、回答に用いたソースがNHKの記事なんだけど、ソースには50m走の世界記録の情報は含まれてない。

しかし、ソースには「ウサインボルトの100m走の記録は小学生女子50m走の平均記録に匹敵する」という趣旨の内容が含まれているので、そこからLLMが、質問文に対応する、偽りの回答文を作ってしまっている。

RAGには色々問題点があるが、このケースのように「Web検索結果に解答が含まれていない場合であっても、質問文と整合するような歪んだ解釈をして返答する」のが大きな問題だ。

一番の問題は、コンテキストに自分以外のキャラの発言が含まれること。他のキャラがうつってしまう。

対策として、他キャラ発言を地の文に変換してみたんだけど、そうすると、そのキャラ自身も地の文でしゃべってしまう。これはあくまでチャットだから、そうされるとまずい。地の文出力をやめるという手もあるにはあるが…。

スレッドを表示

この辺の実装、だいたいできた。ただ、やはり複数人同士の会話になると、ボットが自分のキャラを見失いがちだ。色々と工夫を試してはいるが著効せず、7Bモデルの限界かもしれん。

スレッドを表示

ネットに繋がらなくなった、と思ったらフレッツの工事だった。こんな時間に…と思ったが、こんな時間だからだよw

工事情報メール通知サービスというのがあるらしいんで、登録しておこう。

どうせなら…

イラストAIといっても結局は1枚絵を出すだけである。つまり、「プロンプトに指定された要素が何かを理解して、それらを一つ一つ描いている」のではなくて、「プロンプトの内容がキャプションとなっているような、1枚の絵を再現している」だけに過ぎない。

…のような批判をしていきたい。

スレッドを表示

まあ、「AI生成画像の修正の模様をスクショしてSNSで共有」には、何かを証明することにはならない以上、自己顕示欲からの行動でしかないというのは否定できないとは思うけど。だとしても、しょうもない争いだな。

スレッドを表示

私はクリスタじゃないけど、AI出力絵を部分的に拡縮したり回転したり、ラクガキで埋めたりするのにペイントソフト使ってるな。

i2iやinpaintの下絵に使うだけで、最終出力には一切出てこないけどね。こういう使い方でも、「ペイントソフトが汚された」と思う人も居るんだろうなぁ…。

スレッドを表示

LayerDiffuseとかを使って、人物と背景を分離して、レイヤー分けしてからがっつり編集するタイプのAI絵師も中には居るのかもしれないが、まあぶっちゃけそこまで出来る人は普通に絵が描ける人だから、AIなんて使ってないわな。

スレッドを表示

生成AI画像(.png)をペイントソフトで開いた状態でスクショすると、自分で描いたアピールとして非難の対象になるらしく、炎上していた。

しかし、元ポストのbioにはAI使用、手描き加筆の旨が明記されており、騙す意図は多分無いんだろうな。おそらくだが、絵師はたぶんAI画像の手描き修正がどういう工程なのか、知らないということなのだろう。

AI生成画像って、言わばレイヤー結合済みの出力なんで、そこからやれることはコラージュとあんまり変わらんのよね。

国産ゲームは長らくコンシューマーゲームが主体だったし、PCゲームはエロゲーかオンラインゲームくらいで、MODといえば規制解除とかチートとかの、ろくでもない使い方しかされてなかった気がする。あとはブラウザゲーとかスマホのソシャゲとかはMOD関係ないしな。

本邦では、MOD文化が根付くタイミングが無かったんじゃないかなぁ。

スレッドを表示

日本にMOD文化が根付いてない、ってのは、MODのルーツが家庭用ゲームの海賊版の改造にあるからじゃないのん?

x.com/vespiking/status/1860528
ドラクエ1、2の時点で、
・ラスボスっぽいやつはラスボスの前座である
・ラスボスには専用曲がある
という法則があったので、実はバレバレであった。

人工無脳に毛が生えたようなLLMごときに、エージェントとして従来型決定論的プログラムを実行する仕事をさせるのは、精度、コスト面からも、安定性、安全性の観点からも、良いアプローチだとは思えない。

逆に、従来型決定論的プログラムに、LLMを組み込むべき。

ただ、これらの手法はプロンプトキャッシュ(kv cache)ありきではある。キャッシュが働かなければ、逆に、より高コストになってしまう可能性もある。

最近は各社、プロンプトキャッシュ機能をAPIにも提供するようになったけど、キャッシュが効けば無料というわけでもない。なので、ちゃんと推論コストをキャッシュ割引込みで見積もりつつ設計する必要がある。まあ文章生成タスクの制御を細かくすればするほど、必要コスト範囲が狭まり見積りやすくなるので、その観点からも数打ちゃ当たる方式より優れていると思う。

最終的には、推論と、キャッシュを完全に制御できる、ローカルしか勝たんけどね。

スレッドを表示

これでも数打ちゃ当たる方式ではあるので、もっとちゃんとLLMを制御したいところ。例えば…

・文章生成中、時々、現在の文字数情報(残り文字数)をプロンプトとしてインジェクションする。

・文章生成中にリアルタイムに文字数カウントし、制限を超えたら自動的に生成を打ち切ってリトライ。このとき、最初からリトライするのはもったいないので、途中から再開する。

・まず、「生成すべき文章を5つの段落に分けて書きたい。各段落のタイトルを出力せよ」のようなプロンプトを実行。次に各段落の本文を順番に生成させるようにする(このとき文字数制限は、文章全体の文字数/段落数などの値を事前に計算して指定する)。各段落本文生成時には、前述の方式で文字数制御を行う。

スレッドを表示
古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。