新しいものを表示

しかし、ARC Prize版のARC-AGI評価グラフで、横軸が対数だと把握していながら、なおo3 highのコストを間違えて$1500と読み取る人が多いのは、それだけ人類は指数、対数関数に弱いという証左なんだろうか。
(ちなみに日本語圏に限らずだった)

スレッドを表示

o3、とりあえず私がツッコめる範囲でツッコんでおいた。あとは専門家に任せよう。

スレッドを表示

いや、それにしても…人間の専門家に頼めば、ほぼ100点の回答を1500円で出してくれるのを、88点しか出せないAIに50万円かけるバカはおらんでしょ。

OpenAIはそれを分かっててグラフの横軸を隠すし、人間の点数をグラフに描き入れない。だいぶギルティだと思う。

スレッドを表示

x.com/OpenAI/status/1870186518
今気づいたが、ARC-AGI評価グラフ、OpenAIの発表では横軸の目盛が隠されてる。これはひどい。詐欺グラフ警察はただちにアップを始めないとw

スレッドを表示

AGIの定義を、人間(ここではstem grad、要は理系の修士や博士)と同じレベルの能力を持つAIとし、このグラフを素直に解釈すれば、「推論時間スケーリング則によってはAGIは現実的な時間では達成し得ない」なんだけど、他にどう読める?

OpenAIはこの結果を元に、o3はAGIへのマイルストーンだ、みたいに言ってるらしいけど、なんでだ。

スレッドを表示

x.com/arcprize/status/18701692
本当にじわじわくるグラフだな。確かに、右肩上がりですごく綺麗な推論時間スケーリング則。ただし片対数グラフ。そう、片対数なんだよ。

つまり、思考に数日かけると人間の88%の能力を発現するAIは、さらに数年かけても90%にいくかいかないかだし、100%に到達するのは人類が滅びた後、みたいなスケール感覚なのよね。

スレッドを表示

うーん、なかなか狂気じみた発表だった。AGI幻想に取り憑かれとる。

スレッドを表示

というかo3 highで1回の推論で$3000~4000(対数目盛の目測で)とかマジで言ってる? 50万円コース? この前ちょっと試算したが、o1のreasoningは1秒1円くらいだろうから、並列実行しない限り、1回の推論に数時間どころか、数日かけるレベルだぞ。

確かに、それでベンチマークの点が多少なりとも上がるなら、推論時間スケーリング則は成立していると言える。でも現実的に使えないなら無意味だよ。ベンチマークでいい点出せる「程度の」LLMに、50万円もかけて、正解かどうかも分からんような問題を解かせるメリット、ある?

スレッドを表示

ツッコミどころは色々あるが、まず、ベンチマークにo1 proが一切出てこないの、なんでだよ。現時点で最強のo1 proと比較してどうなのかが一番大事じゃないか。
(o1 highというのは、o1 proではなく、o1でreasoning_effort=highにしたときという意味ですよね?)

スレッドを表示

最終日はo3。まさか、すごいAIできたけど凄すぎて危険だから、これから一部の研究者に安全性を検証してもらいますという、Soraの天丼を最終日に持ってくるとは予想外だった…。

いったいMicrosoft Copilotに何があったんだ?
使い物になるならん以前に、ちゃんと動いてないが?

スレッドを表示

learn.microsoft.com/ja-jp/copi
Microsoft CopilotはBingの検索結果を使うと書いてあるんだけど、検索してくれてないねえ。

スレッドを表示

ともかく、Bingのデフォルトでは、AI出力は表示されなくなってるのが重要な変化。まあ、そうなるよな。

スレッドを表示

もうBingは誰も使っていないので知らないと思うが、Bing Chatは消滅してMicrosoft Copilotというのになってる。チャットなんだけどWeb検索は別にできないし、なんなんだろうあれ。

それとは別に、ディープ検索というのがあって、これはGoogleの「AIによる概要」と似たような感じだが、完全に動的に検索してるみたいで生成はかなり時間がかかる。そして結果表示がゴチャゴチャしてて分かりづらい。

マスクが根付かないのも結局これだねえ。症状ないのになんでつけなあかんねん、が直感的じゃなさすぎる。

スレッドを表示

コロナは「軽症・無症状だからこそ怖い」に、「何が怖いか分からない」という素朴な反応になるのは当然だし、どうにかなる気もしない(何か見た)

「コロナの発症後の症状経過は一定ではなく、今は軽症そうに見えても、数日後に肺炎になり重症化するパターンがある。また、コロナは潜伏期間が長い上に発症前から感染性があるし、発症後の症状にも個人差が激しいので、元気そうな感染者がウイルスをばら撒く状況が容易に発生する。そうやってばら撒かれたウイルスに感染した者が、軽症・無症状で済む保証がない」のような怖さの文脈を正しく解釈するリテラシーって、相当に高度だと思うんだよね…。

これは版権キャラだからまだ(権利的なツッコミ所があるという意味で)いいんだけど、合成画風でオリジナルキャラ絵を生成した場合に、学習元イラストの作者が何の権利も主張できないのが、凄く直感的じゃなくてすごいよなぁと思ってる。

そろそろこの問題を、特にAIイラストの共有に肯定的な人々が、どう捉えているのか聞いてみたいんだよなぁ。

スレッドを表示

x.com/neipia_sense/status/1869
これおそらく有名な絵師2人のキメラ画風だし、特徴的なタッチだから、まだ分かりやすいんだけどな。

画風合成を突き詰めると、「いつものAIぽいあの画風」からかけ離れていくので、画風でAI製か否かを判別するのは困難になる。

古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。