というかo3 highで1回の推論で$3000~4000(対数目盛の目測で)とかマジで言ってる? 50万円コース? この前ちょっと試算したが、o1のreasoningは1秒1円くらいだろうから、並列実行しない限り、1回の推論に数時間どころか、数日かけるレベルだぞ。
確かに、それでベンチマークの点が多少なりとも上がるなら、推論時間スケーリング則は成立していると言える。でも現実的に使えないなら無意味だよ。ベンチマークでいい点出せる「程度の」LLMに、50万円もかけて、正解かどうかも分からんような問題を解かせるメリット、ある?
https://x.com/arcprize/status/1870169260850573333
本当にじわじわくるグラフだな。確かに、右肩上がりですごく綺麗な推論時間スケーリング則。ただし片対数グラフ。そう、片対数なんだよ。
つまり、思考に数日かけると人間の88%の能力を発現するAIは、さらに数年かけても90%にいくかいかないかだし、100%に到達するのは人類が滅びた後、みたいなスケール感覚なのよね。
https://x.com/OpenAI/status/1870186518230511844
今気づいたが、ARC-AGI評価グラフ、OpenAIの発表では横軸の目盛が隠されてる。これはひどい。詐欺グラフ警察はただちにアップを始めないとw
https://x.com/goodside/status/1870243391814152544
ちょっと笑ってしまったんだが、確かにo1発表間隔を数日で刻むことで、こういうグラフが描けるわけだな。
これをOpenAIが出してたらさすがに笑えないけど、そうじゃないからまだ良かった。でも「短期間で著明に進化した」という演出意図は間違いなくあったのだろうし、このグラフはそれを気づかせてくれた。
https://x.com/kis/status/1870225880582369696
https://x.com/kis/status/1870298491941204200
こういうことをちゃんと指摘できる人が少なすぎて、X見てるとしんどいんだよ最近。
うーん、なかなか狂気じみた発表だった。AGI幻想に取り憑かれとる。