LLM、原理的に、思考ができるものとは思ってない。
いくらニューラルネットワークが人間の思考をモデルにしてる、アテンション機構が人間の認識能力をモデルにしてる、と言われても、人間が本当にそのモデルに従って思考してるかは、何も証明されてないわけだしな。
次に、ARC-AGI semi private 100問で75.7%や87.5%という正答率は本当に凄いのか?という点についても再考が必要。
実際やればわかるけど、ARC-AGIの問題は難しくない。難しめの問題でも、落ち着いて考えれば5分もあれば分かる。一般的なIQテストとは全然違う。平均的な(それこそIQ=100程度の)人間が、ちゃんと時間を与えられて、真面目にやれば、ほぼ100%正答できる問題だと思う。
ARC Prizeの言う、平均的な人間の正答率が73.3~77.2%程度というのは、あくまで、Amazon Mechanical Turkのクラウドワーカーに、1問5ドルで委託した場合の平均正答率でしかない。5ドルぽっちの報酬で、しかも間違えても別に罰則はないようなタスク、誰もが真面目に全力でやりますかね、という。
o3 low(tuned)が高得点を得た理由は、以下のように推測できる。
・oシリーズは、長大なChain of Thoughtによる推論を行うようにファインチューニングされたLLMである。つまり、「自然言語により、仮説を立ててその仮説の正しさについて自ら検証を行う、という処理を多数回試行することにより、正答出力の確率を高める」というタスクをこなすことができる。試行回数を増やせば増やすほど、正答の確率が上げられるので、正答率≒AIとしての能力は、推論時間≒計算量≒計算コストをかけるほど上がる。(ちなみに線形に増加するわけではない)
・o3(tuned)は、ARC-AGIの公開問題の75%を使ってファインチューニングしている。どのようにファインチューニングしたのかは非公開ではあるが、ARC-AGIのCoTでの解き方を学習させたと推測できる。
・o3 low(tuned)は、ARC-AGI semi private 100問で75.7%の正答率を達成するために、約2時間、$2000(約30万円)もかけている。
https://note.com/yatima/n/nf1bb8a284777
o3 low(tuned)がARC-AGIをあんなに解けるのは、計算量でカバーしてるだけでは説明できないので、人間と異なる異質な汎用知能なのでは、という考察。
しかしこれには異を唱えたいな。提示された情報を紐解けば、やっぱり計算量でカバーしてるだけだと推測できるので。
https://x.com/gorillataxjp/status/1870420696997954034
1枚の紙だけで、素人に税金の計算をやらせられるの、なかなか凄いと私は思うのだけどな。
まあ、国税庁ホームページの確定申告書作成コーナーみたいなやつを、源泉徴収関係の書類でも用意して欲しさはあるかもしれない。
あと私、この表を読み違えていた。o3 lowが非公開問題100問に76%得点して、$20(3000円)かかったというのは、1問あたりなのか。
ということはo3 highが88%得点して、50万円かかったというのは、まさかの、1問あたり50万円か。
しかしo3 highの料金は公表されてないが、highはlowの172倍の計算を行ったということは分かるので、$20 x 172=$3440というのを参考のためにグラフに描き入れたのか。つまりこのコストは確定値ではないということになり、実際にいくらかかったのかはOpenAIしか知らないということに。
o3 highの実際のコストが不明である以上は、全問を$10000以内で解くという制限をクリアしているかは不明だから、今回のSOTAはあくまでo3 lowの76%に与えれたものなのね。
https://arcprize.org/blog/oai-o3-pub-breakthrough
o3 high(tuned)というのは、ARC-AGIの公開問題の75%をデータセットとして学習したものというメモは、普通に記事に書いてあった。
https://x.com/cometscome_phys/status/1870617749409743097
https://x.com/cometscome_phys/status/1870619149011226921
https://x.com/cometscome_phys/status/1870619908805111990
生成AIに新しい概念を思いつけるか。これまでの理論や現象からの外挿でいけるのか。
私はそれは生成AIの仕組み上、無理じゃないのかとずっと思っているわけだが、できるという主張が根強いのよな。なんでだろうね。