**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:52

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:52

mutaguchi @mutaguchi@fedibird.com

スレッドと参照参照のみ

2024年12月20日 19:52

mutaguchi @mutaguchi@fedibird.com

https://x.com/arcprize/status/1870169260850573333
本当にじわじわくるグラフだな。確かに、右肩上がりですごく綺麗な推論時間スケーリング則。ただし片対数グラフ。そう、片対数なんだよ。

つまり、思考に数日かけると人間の88%の能力を発現するAIは、さらに数年かけても90%にいくかいかないかだし、100%に到達するのは人類が滅びた後、みたいなスケール感覚なのよね。

**mutaguchi** @mutaguchi@fedibird.com · 2024-12-21T14:36:03Z

mutaguchi @mutaguchi@fedibird.com

https://arcprize.org/arc-agi-pub
https://x.com/Mnestick/status/1870198659821842435
o3が50万円かけて解いた問題、こんなんらしいんですよね。ベンチマークだからというのは百も承知だけど、こんな問題、人間なら一瞬…とはいかずともちょっと何分か考えたら分かることだし、LLMに何時間か何日かしらんがかけて、無理に解かせる必要性を全く感じないわね。こんな問題、言語化して解く系の問題じゃないだろうと。

直感で法則みつけて、その直感が合ってるのか検証するタイプの問題で、LLMにとって明らかに苦手な問題だしなぁ。

2024年12月21日 14:36 · · Web · · ·

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 14:46

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 14:46

2024年12月21日 14:46

mutaguchi @mutaguchi@fedibird.com

…でもこの問題、解答が一意に定まらない気がするな。左右の同じ辺に接する青ドット同士を結んでも良くない？

その操作を許可した場合、青線と接する赤矩形の処理が未定義なので、未定義操作が生まれるということは、不許可な操作だったのだ、と結論するのが正解なのかしら…

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 14:50

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 14:50

2024年12月21日 14:50

mutaguchi @mutaguchi@fedibird.com

https://x.com/optozorax/status/1870332502847476005
お、o3は実際、こっちの解を提出して間違い判定を食らったのか。
うん、o3くんが正しいと思うよ私もｗ

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 15:17

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 15:17

2024年12月21日 15:17

mutaguchi @mutaguchi@fedibird.com

これ、1問解くのに50万円ではないよね？500問で50万円よな。上限$10,000 USDって書いてあるしな。

でも制限時間12時間になってるな。だとすればo3 highの実行は、数時間で50万円もかかる？10円/1秒のオーダーでかかる計算になるが。o1 highに比べると計算リソースの割り当てが相当多い感じなのかな。

もっとも、ARC-AGIで高得点を取るために、逆算してo3 highの計算リソースを割り当てたと考えるのが自然か。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 15:28

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 15:28

+ 2024年12月21日 15:28

mutaguchi @mutaguchi@fedibird.com

しかしなー、とにかく、ARC-AGIの問題、IQテストにも満たない、子供向けの塗り絵レベルの問題集で、こんなの人間なら時間かければ誰でも解けるよね。

平均的な人間なら75%しか解けないと言われてるのは何なんだろう。グラフではAvg. Mturkerが75%くらいの正答率になってるけど、これってAmazon Mechanical Turkという人力でマイクロタスクをやってもらうクラウドソーシングサービスで得られる、平均的な解答品質という意味で、これを平均的な人間の能力と見做すのは流石に無い。

これをAGIがどうとかの評価基準にするのは、やっぱり馬鹿げてる。しかも、推論時間スケーリング準拠だから、数時間とかのオーダーで時間かけて、解けたからAGI？いやいや、と。 [参照]

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 15:39

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 15:39

2024年12月21日 15:39

mutaguchi @mutaguchi@fedibird.com

ARC-AGIの問題、人間が時間をかければ誰でもほぼ100%得点できる類の問題なのだから、AIも時間をかけていいのなら、ほぼ100%得点出来たときに初めて、AGIを名乗るべきじゃないか？

といっても、それでも、塗り絵が人間レベルに出来てエライ、というレベルだけどさ。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 15:51

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 15:51

2024年12月21日 15:51

mutaguchi @mutaguchi@fedibird.com

やはり推論時間スケーリング則は無限の猿定理と同じ主張だと思えてならない。どちらも確率は試行回数によって上げられるという主張だ。

そりゃ時間かければ猿はシェークスピアを書くし、LLMは塗り絵をこなすだろうよ。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 16:01

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 16:01

2024年12月21日 16:01

mutaguchi @mutaguchi@fedibird.com

現状の正答率88%程度の能力でも、クラウドソーシングよりは上の性能だから良し、としたとしても、クラウドソーシングで数百円、理系博士にやらせても2000円かからないような仕事を、LLMが50万円かけて出来た、というのは、本当に仕事が出来たうちに入るのか問題もある。

AGIベンチマークのレギュレーション上では合格だから、というのは特に意味のない主張だしね。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 16:07

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 16:07

2024年12月21日 16:07

mutaguchi @mutaguchi@fedibird.com

推論時間スケーリング則に従ったLLMを、そうではないLLMと同じベンチマークで評価することが妥当か、という問題も提起できそうだな。

一体、ベンチマークで何を調べていると言えるのか。「同じモデルでも、回答にかける時間で点数が変わる」という測定方法で、モデルの性能を測っていると言えるのか？

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 16:18

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 16:18

2024年12月21日 16:18

mutaguchi @mutaguchi@fedibird.com

あ、今更だけど、o3 high(tuned)のtuned部分が気になる。これ、ARC-AGIを解くためにファインチューニングしたという意味かしら。だったら、ファインチューニングして、それ？という気もする。

それに、ファインチューニングしたらもうArtificial "general" intelligenceでも何でもないのでは。汎用isどこ。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 03:36

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 03:36

2024年12月22日 03:36

mutaguchi @mutaguchi@fedibird.com

これに関して、こんなポストを見かけた。
https://x.com/NielsRogge/status/1870393141507108999
https://x.com/NielsRogge/status/1870455685131145350

ちょっと出所が分からないんだけど、o3 high(tuned)というのは、ARC-AGIの公開問題の75%をデータセットとして学習したもの、ということらしい。

これで本当に、「今のところ人間にしかできない、抽象化と論理的思考ができる」という、汎化性能の達成を評価出来ていると言えるのか、というこの人の疑問に私も同意だな。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 03:38

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 03:38

2024年12月22日 03:38

mutaguchi @mutaguchi@fedibird.com

これ引用元どこなんだろう。discordなのかなぁ。こういうのちゃんとpublicな場に出して欲しい…

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 03:54

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 03:54

2024年12月22日 03:54

mutaguchi @mutaguchi@fedibird.com

https://x.com/mikeknoop/status/1870583471892226343
メモの原文は今のところ見つけられなかったが、ARC Prizeの中の人による言及をみつけた。
曰く、「それはまあ、そういうもんやで」とのこと。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 04:01

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 04:01

2024年12月22日 04:01

mutaguchi @mutaguchi@fedibird.com

それに対して、ツッコミが入りまくってるが、そりゃそうよ…

結局これもまた、OpenAIのいつもの仕込みだねぇ。GPT-4oのときは、Chatbot Arenaに覆面モデルとして参戦させるという仕込みをしてた。評価者の運営を抱き込むの、ほんとフェアじゃないんよ…
https://x.com/mutaguchi/status/1790104994827600187

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 04:40

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 04:40

2024年12月22日 04:40

mutaguchi @mutaguchi@fedibird.com

ARC Prizeがやるべきだったことって、テスト直後に「OpenAIさんのモデルがこのたびSOTAを達成しました、おめでとう」と言う以外にないと思うんだが。

OpenAIからの、モデル名を伏せるか、結果公表を待ってくれ、みたいな依頼を飲んだことは明確で、こんなことすると評価プログラムの公平性に疑義を付けざるを得なくなるんよな。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 06:04

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 06:04

2024年12月22日 06:04

mutaguchi @mutaguchi@fedibird.com

https://arcprize.org/blog/oai-o3-pub-breakthrough
o3 high(tuned)というのは、ARC-AGIの公開問題の75%をデータセットとして学習したものというメモは、普通に記事に書いてあった。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 06:36

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月22日 06:36

2024年12月22日 06:36

mutaguchi @mutaguchi@fedibird.com

あと私、この表を読み違えていた。o3 lowが非公開問題100問に76%得点して、$20（3000円）かかったというのは、1問あたりなのか。
ということはo3 highが88%得点して、50万円かかったというのは、まさかの、1問あたり50万円か。

しかしo3 highの料金は公表されてないが、highはlowの172倍の計算を行ったということは分かるので、$20 x 172=$3440というのを参考のためにグラフに描き入れたのか。つまりこのコストは確定値ではないということになり、実際にいくらかかったのかはOpenAIしか知らないということに。

o3 highの実際のコストが不明である以上は、全問を$10000以内で解くという制限をクリアしているかは不明だから、今回のSOTAはあくまでo3 lowの76%に与えれたものなのね。