https://x.com/arcprize/status/1870169260850573333
本当にじわじわくるグラフだな。確かに、右肩上がりですごく綺麗な推論時間スケーリング則。ただし片対数グラフ。そう、片対数なんだよ。
つまり、思考に数日かけると人間の88%の能力を発現するAIは、さらに数年かけても90%にいくかいかないかだし、100%に到達するのは人類が滅びた後、みたいなスケール感覚なのよね。
https://arcprize.org/arc-agi-pub
https://x.com/Mnestick/status/1870198659821842435
o3が50万円かけて解いた問題、こんなんらしいんですよね。ベンチマークだからというのは百も承知だけど、こんな問題、人間なら一瞬…とはいかずともちょっと何分か考えたら分かることだし、LLMに何時間か何日かしらんがかけて、無理に解かせる必要性を全く感じないわね。こんな問題、言語化して解く系の問題じゃないだろうと。
直感で法則みつけて、その直感が合ってるのか検証するタイプの問題で、LLMにとって明らかに苦手な問題だしなぁ。
https://x.com/optozorax/status/1870332502847476005
お、o3は実際、こっちの解を提出して間違い判定を食らったのか。
うん、o3くんが正しいと思うよ私もw
しかしなー、とにかく、ARC-AGIの問題、IQテストにも満たない、子供向けの塗り絵レベルの問題集で、こんなの人間なら時間かければ誰でも解けるよね。
平均的な人間なら75%しか解けないと言われてるのは何なんだろう。グラフではAvg. Mturkerが75%くらいの正答率になってるけど、これってAmazon Mechanical Turkという人力でマイクロタスクをやってもらうクラウドソーシングサービスで得られる、平均的な解答品質という意味で、これを平均的な人間の能力と見做すのは流石に無い。
これをAGIがどうとかの評価基準にするのは、やっぱり馬鹿げてる。しかも、推論時間スケーリング準拠だから、数時間とかのオーダーで時間かけて、解けたからAGI?いやいや、と。 [参照]
これに関して、こんなポストを見かけた。
https://x.com/NielsRogge/status/1870393141507108999
https://x.com/NielsRogge/status/1870455685131145350
ちょっと出所が分からないんだけど、o3 high(tuned)というのは、ARC-AGIの公開問題の75%をデータセットとして学習したもの、ということらしい。
これで本当に、「今のところ人間にしかできない、抽象化と論理的思考ができる」という、汎化性能の達成を評価出来ていると言えるのか、というこの人の疑問に私も同意だな。
https://arcprize.org/blog/oai-o3-pub-breakthrough
o3 high(tuned)というのは、ARC-AGIの公開問題の75%をデータセットとして学習したものというメモは、普通に記事に書いてあった。
o3 lowが非公開問題100問解くのにかかったコストは$2012、公開問題400問には$6677、計$8689(≒130万円)もかかってる。
だったら、o3 highではlowの172倍の計算コストがかかるとしたら、1回テスト受けるだけで2億円以上かけてるってこと?ほんとに?ほとんど大規模学習並のコストだけど。
50万円でもまあまあナンセンスだなあ、と思ってたけど、塗り絵テストに2億円かけて、これがAGIですって?