最終日はo3。まさか、すごいAIできたけど凄すぎて危険だから、これから一部の研究者に安全性を検証してもらいますという、Soraの天丼を最終日に持ってくるとは予想外だった…。

ツッコミどころは色々あるが、まず、ベンチマークにo1 proが一切出てこないの、なんでだよ。現時点で最強のo1 proと比較してどうなのかが一番大事じゃないか。
(o1 highというのは、o1 proではなく、o1でreasoning_effort=highにしたときという意味ですよね?)

というかo3 highで1回の推論で$3000~4000(対数目盛の目測で)とかマジで言ってる? 50万円コース? この前ちょっと試算したが、o1のreasoningは1秒1円くらいだろうから、並列実行しない限り、1回の推論に数時間どころか、数日かけるレベルだぞ。

確かに、それでベンチマークの点が多少なりとも上がるなら、推論時間スケーリング則は成立していると言える。でも現実的に使えないなら無意味だよ。ベンチマークでいい点出せる「程度の」LLMに、50万円もかけて、正解かどうかも分からんような問題を解かせるメリット、ある?

うーん、なかなか狂気じみた発表だった。AGI幻想に取り憑かれとる。

x.com/arcprize/status/18701692
本当にじわじわくるグラフだな。確かに、右肩上がりですごく綺麗な推論時間スケーリング則。ただし片対数グラフ。そう、片対数なんだよ。

つまり、思考に数日かけると人間の88%の能力を発現するAIは、さらに数年かけても90%にいくかいかないかだし、100%に到達するのは人類が滅びた後、みたいなスケール感覚なのよね。

AGIの定義を、人間(ここではstem grad、要は理系の修士や博士)と同じレベルの能力を持つAIとし、このグラフを素直に解釈すれば、「推論時間スケーリング則によってはAGIは現実的な時間では達成し得ない」なんだけど、他にどう読める?

OpenAIはこの結果を元に、o3はAGIへのマイルストーンだ、みたいに言ってるらしいけど、なんでだ。

x.com/OpenAI/status/1870186518
今気づいたが、ARC-AGI評価グラフ、OpenAIの発表では横軸の目盛が隠されてる。これはひどい。詐欺グラフ警察はただちにアップを始めないとw

いや、それにしても…人間の専門家に頼めば、ほぼ100点の回答を1500円で出してくれるのを、88点しか出せないAIに50万円かけるバカはおらんでしょ。

OpenAIはそれを分かっててグラフの横軸を隠すし、人間の点数をグラフに描き入れない。だいぶギルティだと思う。

o3、とりあえず私がツッコめる範囲でツッコんでおいた。あとは専門家に任せよう。

しかし、ARC Prize版のARC-AGI評価グラフで、横軸が対数だと把握していながら、なおo3 highのコストを間違えて$1500と読み取る人が多いのは、それだけ人類は指数、対数関数に弱いという証左なんだろうか。
(ちなみに日本語圏に限らずだった)

x.com/goodside/status/18702433
ちょっと笑ってしまったんだが、確かにo1発表間隔を数日で刻むことで、こういうグラフが描けるわけだな。

これをOpenAIが出してたらさすがに笑えないけど、そうじゃないからまだ良かった。でも「短期間で著明に進化した」という演出意図は間違いなくあったのだろうし、このグラフはそれを気づかせてくれた。

このグラフをジョークとして受け取ってる人が居なさそうなのを見るに、OpenAIはやっぱり食えない企業だなぁと思ったりもする。みんな、術中にハマッとるね。こんなに演出がうまいエンターテナー、悪く言えばペテン師な企業は滅多にない。

フォロー

x.com/kis/status/1870225880582
x.com/kis/status/1870298491941
こういうことをちゃんと指摘できる人が少なすぎて、X見てるとしんどいんだよ最近。

X見てると、AI詳しい人でもo3なんであんなに高いの?と言ってる人が多いな。

推論時間スケーリング則のパラダイムにおいて、コスト≒推論時間≒推論能力なのだから、コストがかかること自体に不思議はないと思うんだが…。

どっちかというと問題は、推論能力を人間並に押し上げるために必要な推論時間≒コストがもう全然現実的じゃなくなった点じゃないですか?

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。