https://note.com/yatima/n/nf1bb8a284777
o3 low(tuned)がARC-AGIをあんなに解けるのは、計算量でカバーしてるだけでは説明できないので、人間と異なる異質な汎用知能なのでは、という考察。
しかしこれには異を唱えたいな。提示された情報を紐解けば、やっぱり計算量でカバーしてるだけだと推測できるので。
o3 low(tuned)が高得点を得た理由は、以下のように推測できる。
・oシリーズは、長大なChain of Thoughtによる推論を行うようにファインチューニングされたLLMである。つまり、「自然言語により、仮説を立ててその仮説の正しさについて自ら検証を行う、という処理を多数回試行することにより、正答出力の確率を高める」というタスクをこなすことができる。試行回数を増やせば増やすほど、正答の確率が上げられるので、正答率≒AIとしての能力は、推論時間≒計算量≒計算コストをかけるほど上がる。(ちなみに線形に増加するわけではない)
・o3(tuned)は、ARC-AGIの公開問題の75%を使ってファインチューニングしている。どのようにファインチューニングしたのかは非公開ではあるが、ARC-AGIのCoTでの解き方を学習させたと推測できる。
・o3 low(tuned)は、ARC-AGI semi private 100問で75.7%の正答率を達成するために、約2時間、$2000(約30万円)もかけている。
Chain of Thoughtの鎖を死ぬほど延ばしたら性能が上がる、というのは、無限の猿定理と同等の主張だと私は思ってる。
低確率で正答できる問題を、いっぱい試したら、そのうち正答できた、というのは「思考」と言えるのか。また、それを思考だと受け入れるとしても、実用性はあるのか。計算資源は有限なので。
何より、多くの人が指摘している通り、oシリーズの手法では、回答の正しさをモデル自らが評価可能な問題しか正答を与えることができない。
たとえば数学問題とか、ARC-AGIのようなパズル問題とか。