ARC Prizeの言う、平均的な人間の正答率が73.3～77.2%程度というのは、あくまで、Amazon Mechanical Turkのクラウドワーカーに、1問5ドルで委託した場合の平均正答率でしかない。5ドルぽっちの報酬で、しかも間違えても別に罰則はないようなタスク、誰もが真面目に全力でやりますかね、という。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月23日 03:23

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月23日 03:23

+ 2024年12月23日 03:23

mutaguchi @mutaguchi@fedibird.com

ちなみに、o3 high(tuned)の計算コストは非公開だが、o3 low(tuned)の172倍の計算量を投入しているので、単純計算で100問解くのに5000万円くらいかかっている。それでも正答率は87.5%止まり。
計算量はlowの172倍なのに、実計算時間は10倍の23時間に留まっているが、これは並列実行したことによる時短だと思われる。というか、24時間以内でタスクが完了するように逆算して、計算リソースを割り当てたと予想される。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月23日 03:23

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月23日 03:23

+ 2024年12月23日 03:23

mutaguchi @mutaguchi@fedibird.com

o3 low(tuned)が高得点を得た理由は、以下のように推測できる。

・oシリーズは、長大なChain of Thoughtによる推論を行うようにファインチューニングされたLLMである。つまり、「自然言語により、仮説を立ててその仮説の正しさについて自ら検証を行う、という処理を多数回試行することにより、正答出力の確率を高める」というタスクをこなすことができる。試行回数を増やせば増やすほど、正答の確率が上げられるので、正答率≒AIとしての能力は、推論時間≒計算量≒計算コストをかけるほど上がる。（ちなみに線形に増加するわけではない）

・o3(tuned)は、ARC-AGIの公開問題の75%を使ってファインチューニングしている。どのようにファインチューニングしたのかは非公開ではあるが、ARC-AGIのCoTでの解き方を学習させたと推測できる。

・o3 low(tuned)は、ARC-AGI semi private 100問で75.7%の正答率を達成するために、約2時間、$2000（約30万円）もかけている。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月23日 03:23

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月23日 03:23

+ 2024年12月23日 03:23

mutaguchi @mutaguchi@fedibird.com

https://note.com/yatima/n/nf1bb8a284777
o3 low(tuned)がARC-AGIをあんなに解けるのは、計算量でカバーしてるだけでは説明できないので、人間と異なる異質な汎用知能なのでは、という考察。

しかしこれには異を唱えたいな。提示された情報を紐解けば、やっぱり計算量でカバーしてるだけだと推測できるので。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 12:39

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 12:39

2024年12月22日 12:39

mutaguchi @mutaguchi@fedibird.com

https://x.com/Jakotsunya/status/1870688280431505508
ですねぇ

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 09:56

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 09:56

+ 2024年12月22日 09:56

mutaguchi @mutaguchi@fedibird.com

国税庁の「年調ソフト」はあるが、あれは事業者側が電子申請を受理するために、従業員が電子申告書を作成するためのソフトという性格のものだろうから、事業者側が紙ベースの場合には、従業員側にとっては面倒なだけだな。

マイナカードもアカウント作成も不要で、ぽちぽち入力したら勝手に計算してくれて、PDF出力してくれるやつがいい。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 09:43

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 09:43

+ 2024年12月22日 09:43

mutaguchi @mutaguchi@fedibird.com

まあ国としては国民皆確定申告の世界を目指してるっぽいし、今更、源泉徴収・年末調整関係の書類作成に便宜を図る措置はしなさそう。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 09:39

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 09:39

+ 2024年12月22日 09:39

mutaguchi @mutaguchi@fedibird.com

https://x.com/gorillataxjp/status/1870420696997954034
1枚の紙だけで、素人に税金の計算をやらせられるの、なかなか凄いと私は思うのだけどな。

まあ、国税庁ホームページの確定申告書作成コーナーみたいなやつを、源泉徴収関係の書類でも用意して欲しさはあるかもしれない。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 06:59

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 06:59

+ 2024年12月22日 06:59

mutaguchi @mutaguchi@fedibird.com

o3 lowはまだしも、o3 highは推論時間スケーリング則の概念実証レベルでしかないな。こんなの、実用できるわけがない。「理論上は可能です」ってやつだ。

具体的なコストを伏せて成果だけ強調するの、ほんと良くないねえ、OpenAIさん。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 06:46

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 06:46

+ 2024年12月22日 06:46

mutaguchi @mutaguchi@fedibird.com

50万円でもまあまあナンセンスだなあ、と思ってたけど、塗り絵テストに2億円かけて、これがAGIですって？

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 06:43

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 06:43

+ 2024年12月22日 06:43

mutaguchi @mutaguchi@fedibird.com

o3 lowが非公開問題100問解くのにかかったコストは$2012、公開問題400問には$6677、計$8689（≒130万円）もかかってる。

だったら、o3 highではlowの172倍の計算コストがかかるとしたら、1回テスト受けるだけで2億円以上かけてるってこと？ほんとに？ほとんど大規模学習並のコストだけど。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 06:36

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 06:36

+ 2024年12月22日 06:36

mutaguchi @mutaguchi@fedibird.com

あと私、この表を読み違えていた。o3 lowが非公開問題100問に76%得点して、$20（3000円）かかったというのは、1問あたりなのか。
ということはo3 highが88%得点して、50万円かかったというのは、まさかの、1問あたり50万円か。

しかしo3 highの料金は公表されてないが、highはlowの172倍の計算を行ったということは分かるので、$20 x 172=$3440というのを参考のためにグラフに描き入れたのか。つまりこのコストは確定値ではないということになり、実際にいくらかかったのかはOpenAIしか知らないということに。

o3 highの実際のコストが不明である以上は、全問を$10000以内で解くという制限をクリアしているかは不明だから、今回のSOTAはあくまでo3 lowの76%に与えれたものなのね。

スレッドを表示