**mutaguchi** @mutaguchi@fedibird.com · 2024年12月23日 03:23

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月23日 03:23

mutaguchi @mutaguchi@fedibird.com

2024年12月23日 03:23

mutaguchi @mutaguchi@fedibird.com

https://note.com/yatima/n/nf1bb8a284777
o3 low(tuned)がARC-AGIをあんなに解けるのは、計算量でカバーしてるだけでは説明できないので、人間と異なる異質な汎用知能なのでは、という考察。

しかしこれには異を唱えたいな。提示された情報を紐解けば、やっぱり計算量でカバーしてるだけだと推測できるので。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月23日 03:23

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月23日 03:23

2024年12月23日 03:23

mutaguchi @mutaguchi@fedibird.com

o3 low(tuned)が高得点を得た理由は、以下のように推測できる。

・oシリーズは、長大なChain of Thoughtによる推論を行うようにファインチューニングされたLLMである。つまり、「自然言語により、仮説を立ててその仮説の正しさについて自ら検証を行う、という処理を多数回試行することにより、正答出力の確率を高める」というタスクをこなすことができる。試行回数を増やせば増やすほど、正答の確率が上げられるので、正答率≒AIとしての能力は、推論時間≒計算量≒計算コストをかけるほど上がる。（ちなみに線形に増加するわけではない）

・o3(tuned)は、ARC-AGIの公開問題の75%を使ってファインチューニングしている。どのようにファインチューニングしたのかは非公開ではあるが、ARC-AGIのCoTでの解き方を学習させたと推測できる。

・o3 low(tuned)は、ARC-AGI semi private 100問で75.7%の正答率を達成するために、約2時間、$2000（約30万円）もかけている。

**mutaguchi** @mutaguchi@fedibird.com · 2024-12-23T03:23:34Z

mutaguchi @mutaguchi@fedibird.com

ちなみに、o3 high(tuned)の計算コストは非公開だが、o3 low(tuned)の172倍の計算量を投入しているので、単純計算で100問解くのに5000万円くらいかかっている。それでも正答率は87.5%止まり。
計算量はlowの172倍なのに、実計算時間は10倍の23時間に留まっているが、これは並列実行したことによる時短だと思われる。というか、24時間以内でタスクが完了するように逆算して、計算リソースを割り当てたと予想される。

2024年12月23日 03:23 · · Web · · ·

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月23日 03:23

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月23日 03:23

2024年12月23日 03:23

mutaguchi @mutaguchi@fedibird.com

次に、ARC-AGI semi private 100問で75.7%や87.5%という正答率は本当に凄いのか？という点についても再考が必要。

実際やればわかるけど、ARC-AGIの問題は難しくない。難しめの問題でも、落ち着いて考えれば5分もあれば分かる。一般的なIQテストとは全然違う。平均的な（それこそIQ=100程度の）人間が、ちゃんと時間を与えられて、真面目にやれば、ほぼ100%正答できる問題だと思う。

ARC Prizeの言う、平均的な人間の正答率が73.3～77.2%程度というのは、あくまで、Amazon Mechanical Turkのクラウドワーカーに、1問5ドルで委託した場合の平均正答率でしかない。5ドルぽっちの報酬で、しかも間違えても別に罰則はないようなタスク、誰もが真面目に全力でやりますかね、という。