mutaguchi @mutaguchi@fedibird.com

- フォロー中

- フォロワー

X: https://x.com/mutaguchi

write only

2023年 7月に登録

0 フォロー中 0 フォロワー

投稿投稿と返信メディア

新しいものを表示

+ 2024年12月20日 20:51

mutaguchi @mutaguchi@fedibird.com

しかし、ARC Prize版のARC-AGI評価グラフで、横軸が対数だと把握していながら、なおo3 highのコストを間違えて$1500と読み取る人が多いのは、それだけ人類は指数、対数関数に弱いという証左なんだろうか。
（ちなみに日本語圏に限らずだった）

スレッドを表示

+ 2024年12月20日 20:40

mutaguchi @mutaguchi@fedibird.com

o3、とりあえず私がツッコめる範囲でツッコんでおいた。あとは専門家に任せよう。

スレッドを表示

+ 2024年12月20日 20:23

mutaguchi @mutaguchi@fedibird.com

いや、それにしても…人間の専門家に頼めば、ほぼ100点の回答を1500円で出してくれるのを、88点しか出せないAIに50万円かけるバカはおらんでしょ。

OpenAIはそれを分かっててグラフの横軸を隠すし、人間の点数をグラフに描き入れない。だいぶギルティだと思う。

スレッドを表示

+ 2024年12月20日 20:17

mutaguchi @mutaguchi@fedibird.com

https://x.com/OpenAI/status/1870186518230511844
今気づいたが、ARC-AGI評価グラフ、OpenAIの発表では横軸の目盛が隠されてる。これはひどい。詐欺グラフ警察はただちにアップを始めないとｗ

スレッドを表示

+ 2024年12月20日 19:58

mutaguchi @mutaguchi@fedibird.com

AGIの定義を、人間（ここではstem grad、要は理系の修士や博士）と同じレベルの能力を持つAIとし、このグラフを素直に解釈すれば、「推論時間スケーリング則によってはAGIは現実的な時間では達成し得ない」なんだけど、他にどう読める？

OpenAIはこの結果を元に、o3はAGIへのマイルストーンだ、みたいに言ってるらしいけど、なんでだ。

スレッドを表示

+ 2024年12月20日 19:52

mutaguchi @mutaguchi@fedibird.com

https://x.com/arcprize/status/1870169260850573333
本当にじわじわくるグラフだな。確かに、右肩上がりですごく綺麗な推論時間スケーリング則。ただし片対数グラフ。そう、片対数なんだよ。

つまり、思考に数日かけると人間の88%の能力を発現するAIは、さらに数年かけても90%にいくかいかないかだし、100%に到達するのは人類が滅びた後、みたいなスケール感覚なのよね。

スレッドを表示

+ 2024年12月20日 19:32

mutaguchi @mutaguchi@fedibird.com

うーん、なかなか狂気じみた発表だった。AGI幻想に取り憑かれとる。

スレッドを表示

+ 2024年12月20日 19:30

mutaguchi @mutaguchi@fedibird.com

というかo3 highで1回の推論で$3000～4000（対数目盛の目測で）とかマジで言ってる？　50万円コース？　この前ちょっと試算したが、o1のreasoningは1秒1円くらいだろうから、並列実行しない限り、1回の推論に数時間どころか、数日かけるレベルだぞ。

確かに、それでベンチマークの点が多少なりとも上がるなら、推論時間スケーリング則は成立していると言える。でも現実的に使えないなら無意味だよ。ベンチマークでいい点出せる「程度の」LLMに、50万円もかけて、正解かどうかも分からんような問題を解かせるメリット、ある？

スレッドを表示

+ 2024年12月20日 19:20

mutaguchi @mutaguchi@fedibird.com

ツッコミどころは色々あるが、まず、ベンチマークにo1 proが一切出てこないの、なんでだよ。現時点で最強のo1 proと比較してどうなのかが一番大事じゃないか。
（o1 highというのは、o1 proではなく、o1でreasoning_effort=highにしたときという意味ですよね？）

スレッドを表示

+ 2024年12月20日 19:04

mutaguchi @mutaguchi@fedibird.com

最終日はo3。まさか、すごいAIできたけど凄すぎて危険だから、これから一部の研究者に安全性を検証してもらいますという、Soraの天丼を最終日に持ってくるとは予想外だった…。

+ 2024年12月20日 14:30

mutaguchi @mutaguchi@fedibird.com

いったいMicrosoft Copilotに何があったんだ？
使い物になるならん以前に、ちゃんと動いてないが？

スレッドを表示

+ 2024年12月20日 14:28

mutaguchi @mutaguchi@fedibird.com

あ、ごくまれに検索してくれるｗ

スレッドを表示

+ 2024年12月20日 14:18

mutaguchi @mutaguchi@fedibird.com

https://learn.microsoft.com/ja-jp/copilot/overview
Microsoft CopilotはBingの検索結果を使うと書いてあるんだけど、検索してくれてないねえ。

スレッドを表示

+ 2024年12月20日 14:01

mutaguchi @mutaguchi@fedibird.com

ともかく、Bingのデフォルトでは、AI出力は表示されなくなってるのが重要な変化。まあ、そうなるよな。

スレッドを表示

+ 2024年12月20日 14:00

mutaguchi @mutaguchi@fedibird.com

もうBingは誰も使っていないので知らないと思うが、Bing Chatは消滅してMicrosoft Copilotというのになってる。チャットなんだけどWeb検索は別にできないし、なんなんだろうあれ。

それとは別に、ディープ検索というのがあって、これはGoogleの「AIによる概要」と似たような感じだが、完全に動的に検索してるみたいで生成はかなり時間がかかる。そして結果表示がゴチャゴチャしてて分かりづらい。

+ 2024年12月20日 09:31

mutaguchi @mutaguchi@fedibird.com

マスクが根付かないのも結局これだねえ。症状ないのになんでつけなあかんねん、が直感的じゃなさすぎる。

スレッドを表示

+ 2024年12月20日 09:28

mutaguchi @mutaguchi@fedibird.com

コロナは「軽症・無症状だからこそ怖い」に、「何が怖いか分からない」という素朴な反応になるのは当然だし、どうにかなる気もしない（何か見た）

「コロナの発症後の症状経過は一定ではなく、今は軽症そうに見えても、数日後に肺炎になり重症化するパターンがある。また、コロナは潜伏期間が長い上に発症前から感染性があるし、発症後の症状にも個人差が激しいので、元気そうな感染者がウイルスをばら撒く状況が容易に発生する。そうやってばら撒かれたウイルスに感染した者が、軽症・無症状で済む保証がない」のような怖さの文脈を正しく解釈するリテラシーって、相当に高度だと思うんだよね…。

2024年12月20日 09:12

mutaguchi @mutaguchi@fedibird.com

https://x.com/kimushun1101/status/1869847485449216361
これすき

+ 2024年12月20日 07:57

mutaguchi @mutaguchi@fedibird.com

これは版権キャラだからまだ（権利的なツッコミ所があるという意味で）いいんだけど、合成画風でオリジナルキャラ絵を生成した場合に、学習元イラストの作者が何の権利も主張できないのが、凄く直感的じゃなくてすごいよなぁと思ってる。

そろそろこの問題を、特にAIイラストの共有に肯定的な人々が、どう捉えているのか聞いてみたいんだよなぁ。

スレッドを表示

+ 2024年12月20日 07:43

mutaguchi @mutaguchi@fedibird.com

https://x.com/neipia_sense/status/1869675369407914232
これおそらく有名な絵師2人のキメラ画風だし、特徴的なタッチだから、まだ分かりやすいんだけどな。

画風合成を突き詰めると、「いつものAIぽいあの画風」からかけ離れていくので、画風でAI製か否かを判別するのは困難になる。

古いものを表示

X: https://x.com/mutaguchi

write only

2023年 7月に登録