新しいものを表示

o3 lowはまだしも、o3 highは推論時間スケーリング則の概念実証レベルでしかないな。こんなの、実用できるわけがない。「理論上は可能です」ってやつだ。

具体的なコストを伏せて成果だけ強調するの、ほんと良くないねえ、OpenAIさん。

スレッドを表示

50万円でもまあまあナンセンスだなあ、と思ってたけど、塗り絵テストに2億円かけて、これがAGIですって?

スレッドを表示

o3 lowが非公開問題100問解くのにかかったコストは$2012、公開問題400問には$6677、計$8689(≒130万円)もかかってる。

だったら、o3 highではlowの172倍の計算コストがかかるとしたら、1回テスト受けるだけで2億円以上かけてるってこと?ほんとに?ほとんど大規模学習並のコストだけど。

スレッドを表示

あと私、この表を読み違えていた。o3 lowが非公開問題100問に76%得点して、$20(3000円)かかったというのは、1問あたりなのか。
ということはo3 highが88%得点して、50万円かかったというのは、まさかの、1問あたり50万円か。

しかしo3 highの料金は公表されてないが、highはlowの172倍の計算を行ったということは分かるので、$20 x 172=$3440というのを参考のためにグラフに描き入れたのか。つまりこのコストは確定値ではないということになり、実際にいくらかかったのかはOpenAIしか知らないということに。

o3 highの実際のコストが不明である以上は、全問を$10000以内で解くという制限をクリアしているかは不明だから、今回のSOTAはあくまでo3 lowの76%に与えれたものなのね。

スレッドを表示

arcprize.org/blog/oai-o3-pub-b
o3 high(tuned)というのは、ARC-AGIの公開問題の75%をデータセットとして学習したものというメモは、普通に記事に書いてあった。

スレッドを表示

x.com/cometscome_phys/status/1
x.com/cometscome_phys/status/1
x.com/cometscome_phys/status/1
生成AIに新しい概念を思いつけるか。これまでの理論や現象からの外挿でいけるのか。

私はそれは生成AIの仕組み上、無理じゃないのかとずっと思っているわけだが、できるという主張が根強いのよな。なんでだろうね。

おまねこ、名前はまあ置いといて、下半身裸なケモ度3のオスって、自衛隊公式キャラクターとしてはだいぶ攻めたデザインだとは思うよね。

ARC Prizeがやるべきだったことって、テスト直後に「OpenAIさんのモデルがこのたびSOTAを達成しました、おめでとう」と言う以外にないと思うんだが。

OpenAIからの、モデル名を伏せるか、結果公表を待ってくれ、みたいな依頼を飲んだことは明確で、こんなことすると評価プログラムの公平性に疑義を付けざるを得なくなるんよな。

スレッドを表示

それに対して、ツッコミが入りまくってるが、そりゃそうよ…

結局これもまた、OpenAIのいつもの仕込みだねぇ。GPT-4oのときは、Chatbot Arenaに覆面モデルとして参戦させるという仕込みをしてた。評価者の運営を抱き込むの、ほんとフェアじゃないんよ…
x.com/mutaguchi/status/1790104

スレッドを表示

x.com/mikeknoop/status/1870583
メモの原文は今のところ見つけられなかったが、ARC Prizeの中の人による言及をみつけた。
曰く、「それはまあ、そういうもんやで」とのこと。

スレッドを表示

これ引用元どこなんだろう。discordなのかなぁ。こういうのちゃんとpublicな場に出して欲しい…

スレッドを表示

これに関して、こんなポストを見かけた。
x.com/NielsRogge/status/187039
x.com/NielsRogge/status/187045

ちょっと出所が分からないんだけど、o3 high(tuned)というのは、ARC-AGIの公開問題の75%をデータセットとして学習したもの、ということらしい。

これで本当に、「今のところ人間にしかできない、抽象化と論理的思考ができる」という、汎化性能の達成を評価出来ていると言えるのか、というこの人の疑問に私も同意だな。

スレッドを表示

AI賠償責任保険(仮)の保険料は、個人賠償責任保険の類より、はるかに高額にせざるを得ないと思う。

個人賠償責任保険は、故意に起こした事故に対しては当然、保険金が支払われることはない。

一方でAIが起こした事故が、故意か偶発か、という判定はできない。AIには意思はないんだから、全部、偶発と見做すしかない。その前提で保険料を決定すると、もう可能な限り高く設定するしかないと思うんだよね。

スレッドを表示

x.com/GianMattya/status/187062
生成AIに判断を委ねて、その結果で不利益が出た場合でも、保険か何かで金銭で解決する仕組みを作れば、AIにも「責任」を取らせられる、という言説。

問題は、AI利用コスト+保険料が、人間の雇用コストをコンスタントに上回るかだと思う。保険料はAIが間違いを犯すことによる損害額の期待値から算出されるわけだが、保険会社の気持ちになって考えてみるのも面白そう。

まあ個人的には、生成AIの出力を人間がチェックする、すなわち「人間が責任を負う」方が、はるかに安上がりだと思うけどもね。

月額3万円の最強ChatGPTに「電源で音質が変わるか」と聞いたら意外な展開に という記事に関する感想。の補足。 

x.com/MobileHackerz/status/187
全文o1 proに出力させる追試をしてみた人が。やっぱりできるね、これ。

ChatGPTの初期版(GPT-3.5)でも、階層構造を設けたメタ小説的文章をちゃんと紡いだ実績があるんで、それくらいは余裕なんだろうな…。

スレッドを表示

犯行予告メッセージを書いた当人は、匿名VPNを軽く挟んで、送信メッセージをエコーバックするタイプのメールフォームに入力するだけで、自分は全く逮捕のリスクを冒さず、「犯罪」の実行犯を仕立て上げることが出来るわけで。

こういう知能犯に踊らされてはだめですよー

スレッドを表示

自分の知らないWebサイトのメールフォームに、自分のメアドが勝手に使われて、犯行予告メッセージをそのサイトに送付され、そのメッセージがリマインダとして自分のメールアドレスにも送信される、という事象が発生しているらしい。

しかし、身に覚えがないからといって、SNSに貼って拡散するのは極めて悪手だと思われるので止めた方がいいですよ。

その犯行予告メッセージを最初にpublicにしたのは、メールアドレスを勝手に使われた本人ということになる。もし、犯行予告を公開することが、脅迫とか威力業務妨害とかの犯罪に該当するなら、その犯罪を行ったのは誰ということになるだろうか。

あ、今更だけど、o3 high(tuned)のtuned部分が気になる。これ、ARC-AGIを解くためにファインチューニングしたという意味かしら。だったら、ファインチューニングして、それ?という気もする。

それに、ファインチューニングしたらもうArtificial "general" intelligenceでも何でもないのでは。汎用isどこ。

スレッドを表示

推論時間スケーリング則に従ったLLMを、そうではないLLMと同じベンチマークで評価することが妥当か、という問題も提起できそうだな。

一体、ベンチマークで何を調べていると言えるのか。「同じモデルでも、回答にかける時間で点数が変わる」という測定方法で、モデルの性能を測っていると言えるのか?

スレッドを表示
古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。