**mutaguchi** @mutaguchi@fedibird.com · 2024-12-20T19:04:42Z

mutaguchi @mutaguchi@fedibird.com

mutaguchi @mutaguchi@fedibird.com

最終日はo3。まさか、すごいAIできたけど凄すぎて危険だから、これから一部の研究者に安全性を検証してもらいますという、Soraの天丼を最終日に持ってくるとは予想外だった…。

2024年12月20日 19:04 · · Web · · ·

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:20

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:20

2024年12月20日 19:20

mutaguchi @mutaguchi@fedibird.com

ツッコミどころは色々あるが、まず、ベンチマークにo1 proが一切出てこないの、なんでだよ。現時点で最強のo1 proと比較してどうなのかが一番大事じゃないか。
（o1 highというのは、o1 proではなく、o1でreasoning_effort=highにしたときという意味ですよね？）

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:30

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:30

2024年12月20日 19:30

mutaguchi @mutaguchi@fedibird.com

というかo3 highで1回の推論で$3000～4000（対数目盛の目測で）とかマジで言ってる？　50万円コース？　この前ちょっと試算したが、o1のreasoningは1秒1円くらいだろうから、並列実行しない限り、1回の推論に数時間どころか、数日かけるレベルだぞ。

確かに、それでベンチマークの点が多少なりとも上がるなら、推論時間スケーリング則は成立していると言える。でも現実的に使えないなら無意味だよ。ベンチマークでいい点出せる「程度の」LLMに、50万円もかけて、正解かどうかも分からんような問題を解かせるメリット、ある？

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:32

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:32

2024年12月20日 19:32

mutaguchi @mutaguchi@fedibird.com

うーん、なかなか狂気じみた発表だった。AGI幻想に取り憑かれとる。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:52

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:52

2024年12月20日 19:52

mutaguchi @mutaguchi@fedibird.com

https://x.com/arcprize/status/1870169260850573333
本当にじわじわくるグラフだな。確かに、右肩上がりですごく綺麗な推論時間スケーリング則。ただし片対数グラフ。そう、片対数なんだよ。

つまり、思考に数日かけると人間の88%の能力を発現するAIは、さらに数年かけても90%にいくかいかないかだし、100%に到達するのは人類が滅びた後、みたいなスケール感覚なのよね。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:58

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 19:58

2024年12月20日 19:58

mutaguchi @mutaguchi@fedibird.com

AGIの定義を、人間（ここではstem grad、要は理系の修士や博士）と同じレベルの能力を持つAIとし、このグラフを素直に解釈すれば、「推論時間スケーリング則によってはAGIは現実的な時間では達成し得ない」なんだけど、他にどう読める？

OpenAIはこの結果を元に、o3はAGIへのマイルストーンだ、みたいに言ってるらしいけど、なんでだ。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 20:17

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 20:17

2024年12月20日 20:17

mutaguchi @mutaguchi@fedibird.com

https://x.com/OpenAI/status/1870186518230511844
今気づいたが、ARC-AGI評価グラフ、OpenAIの発表では横軸の目盛が隠されてる。これはひどい。詐欺グラフ警察はただちにアップを始めないとｗ

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 20:23

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 20:23

2024年12月20日 20:23

mutaguchi @mutaguchi@fedibird.com

いや、それにしても…人間の専門家に頼めば、ほぼ100点の回答を1500円で出してくれるのを、88点しか出せないAIに50万円かけるバカはおらんでしょ。

OpenAIはそれを分かっててグラフの横軸を隠すし、人間の点数をグラフに描き入れない。だいぶギルティだと思う。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 20:40

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 20:40

2024年12月20日 20:40

mutaguchi @mutaguchi@fedibird.com

o3、とりあえず私がツッコめる範囲でツッコんでおいた。あとは専門家に任せよう。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 20:51

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月20日 20:51

2024年12月20日 20:51

mutaguchi @mutaguchi@fedibird.com

しかし、ARC Prize版のARC-AGI評価グラフで、横軸が対数だと把握していながら、なおo3 highのコストを間違えて$1500と読み取る人が多いのは、それだけ人類は指数、対数関数に弱いという証左なんだろうか。
（ちなみに日本語圏に限らずだった）

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 04:44

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 04:44

2024年12月21日 04:44

mutaguchi @mutaguchi@fedibird.com

https://x.com/goodside/status/1870243391814152544
ちょっと笑ってしまったんだが、確かにo1発表間隔を数日で刻むことで、こういうグラフが描けるわけだな。

これをOpenAIが出してたらさすがに笑えないけど、そうじゃないからまだ良かった。でも「短期間で著明に進化した」という演出意図は間違いなくあったのだろうし、このグラフはそれを気づかせてくれた。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 04:50

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 04:50

2024年12月21日 04:50

mutaguchi @mutaguchi@fedibird.com

このグラフをジョークとして受け取ってる人が居なさそうなのを見るに、OpenAIはやっぱり食えない企業だなぁと思ったりもする。みんな、術中にハマッとるね。こんなに演出がうまいエンターテナー、悪く言えばペテン師な企業は滅多にない。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 05:21

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 05:21

2024年12月21日 05:21

mutaguchi @mutaguchi@fedibird.com

https://x.com/kis/status/1870225880582369696
https://x.com/kis/status/1870298491941204200
こういうことをちゃんと指摘できる人が少なすぎて、X見てるとしんどいんだよ最近。

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 12:02

**mutaguchi** @mutaguchi@fedibird.com · 2024年12月21日 12:02

2024年12月21日 12:02

mutaguchi @mutaguchi@fedibird.com

X見てると、AI詳しい人でもo3なんであんなに高いの？と言ってる人が多いな。

推論時間スケーリング則のパラダイムにおいて、コスト≒推論時間≒推論能力なのだから、コストがかかること自体に不思議はないと思うんだが…。

どっちかというと問題は、推論能力を人間並に押し上げるために必要な推論時間≒コストがもう全然現実的じゃなくなった点じゃないですか？

ログインして会話に参加

トレンドタグ

リソース

開発者向け

Mastodon とは？

fedibird.com

さらに…