結局これもまた、OpenAIのいつもの仕込みだねぇ。GPT-4oのときは、Chatbot Arenaに覆面モデルとして参戦させるという仕込みをしてた。評価者の運営を抱き込むの、ほんとフェアじゃないんよ…
https://x.com/mutaguchi/status/1790104994827600187

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 03:54

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 03:54

+ 2024年12月22日 03:54

mutaguchi @mutaguchi@fedibird.com

https://x.com/mikeknoop/status/1870583471892226343
メモの原文は今のところ見つけられなかったが、ARC Prizeの中の人による言及をみつけた。
曰く、「それはまあ、そういうもんやで」とのこと。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 03:38

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 03:38

+ 2024年12月22日 03:38

mutaguchi @mutaguchi@fedibird.com

これ引用元どこなんだろう。discordなのかなぁ。こういうのちゃんとpublicな場に出して欲しい…

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 03:36

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 03:36

+ 2024年12月22日 03:36

mutaguchi @mutaguchi@fedibird.com

これに関して、こんなポストを見かけた。
https://x.com/NielsRogge/status/1870393141507108999
https://x.com/NielsRogge/status/1870455685131145350

ちょっと出所が分からないんだけど、o3 high(tuned)というのは、ARC-AGIの公開問題の75%をデータセットとして学習したもの、ということらしい。

これで本当に、「今のところ人間にしかできない、抽象化と論理的思考ができる」という、汎化性能の達成を評価出来ていると言えるのか、というこの人の疑問に私も同意だな。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 03:02

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 03:02

+ 2024年12月22日 03:02

mutaguchi @mutaguchi@fedibird.com

https://www.asahi.com/special/10005/TKY201201100691.html
事故の損害額の期待値が高すぎると、保険自体が成立しない例。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 02:45

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 02:45

+ 2024年12月22日 02:45

mutaguchi @mutaguchi@fedibird.com

AI賠償責任保険（仮）の保険料は、個人賠償責任保険の類より、はるかに高額にせざるを得ないと思う。

個人賠償責任保険は、故意に起こした事故に対しては当然、保険金が支払われることはない。

一方でAIが起こした事故が、故意か偶発か、という判定はできない。AIには意思はないんだから、全部、偶発と見做すしかない。その前提で保険料を決定すると、もう可能な限り高く設定するしかないと思うんだよね。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 02:36

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 02:36

+ 2024年12月22日 02:36

mutaguchi @mutaguchi@fedibird.com

https://x.com/GianMattya/status/1870622801083940865
生成AIに判断を委ねて、その結果で不利益が出た場合でも、保険か何かで金銭で解決する仕組みを作れば、AIにも「責任」を取らせられる、という言説。

問題は、AI利用コスト＋保険料が、人間の雇用コストをコンスタントに上回るかだと思う。保険料はAIが間違いを犯すことによる損害額の期待値から算出されるわけだが、保険会社の気持ちになって考えてみるのも面白そう。

まあ個人的には、生成AIの出力を人間がチェックする、すなわち「人間が責任を負う」方が、はるかに安上がりだと思うけどもね。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 02:26

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 02:26

+ 2024年12月22日 02:26

mutaguchi @mutaguchi@fedibird.com

月額3万円の最強ChatGPTに「電源で音質が変わるか」と聞いたら意外な展開に　という記事に関する感想。の補足。

https://x.com/MobileHackerz/status/1870622172106150018
全文o1 proに出力させる追試をしてみた人が。やっぱりできるね、これ。

ChatGPTの初期版（GPT-3.5）でも、階層構造を設けたメタ小説的文章をちゃんと紡いだ実績があるんで、それくらいは余裕なんだろうな…。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 02:03

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 02:03

+ 2024年12月22日 02:03

mutaguchi @mutaguchi@fedibird.com

犯行予告メッセージを書いた当人は、匿名VPNを軽く挟んで、送信メッセージをエコーバックするタイプのメールフォームに入力するだけで、自分は全く逮捕のリスクを冒さず、「犯罪」の実行犯を仕立て上げることが出来るわけで。

こういう知能犯に踊らされてはだめですよー

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 01:59

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月22日 01:59

+ 2024年12月22日 01:59

mutaguchi @mutaguchi@fedibird.com

自分の知らないWebサイトのメールフォームに、自分のメアドが勝手に使われて、犯行予告メッセージをそのサイトに送付され、そのメッセージがリマインダとして自分のメールアドレスにも送信される、という事象が発生しているらしい。

しかし、身に覚えがないからといって、SNSに貼って拡散するのは極めて悪手だと思われるので止めた方がいいですよ。

その犯行予告メッセージを最初にpublicにしたのは、メールアドレスを勝手に使われた本人ということになる。もし、犯行予告を公開することが、脅迫とか威力業務妨害とかの犯罪に該当するなら、その犯罪を行ったのは誰ということになるだろうか。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 16:18

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 16:18

+ 2024年12月21日 16:18

mutaguchi @mutaguchi@fedibird.com

あ、今更だけど、o3 high(tuned)のtuned部分が気になる。これ、ARC-AGIを解くためにファインチューニングしたという意味かしら。だったら、ファインチューニングして、それ？という気もする。

それに、ファインチューニングしたらもうArtificial "general" intelligenceでも何でもないのでは。汎用isどこ。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 16:07

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 16:07

+ 2024年12月21日 16:07

mutaguchi @mutaguchi@fedibird.com

推論時間スケーリング則に従ったLLMを、そうではないLLMと同じベンチマークで評価することが妥当か、という問題も提起できそうだな。

一体、ベンチマークで何を調べていると言えるのか。「同じモデルでも、回答にかける時間で点数が変わる」という測定方法で、モデルの性能を測っていると言えるのか？

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 16:01

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 16:01

+ 2024年12月21日 16:01

mutaguchi @mutaguchi@fedibird.com

現状の正答率88%程度の能力でも、クラウドソーシングよりは上の性能だから良し、としたとしても、クラウドソーシングで数百円、理系博士にやらせても2000円かからないような仕事を、LLMが50万円かけて出来た、というのは、本当に仕事が出来たうちに入るのか問題もある。

AGIベンチマークのレギュレーション上では合格だから、というのは特に意味のない主張だしね。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 15:51

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 15:51

+ 2024年12月21日 15:51

mutaguchi @mutaguchi@fedibird.com

やはり推論時間スケーリング則は無限の猿定理と同じ主張だと思えてならない。どちらも確率は試行回数によって上げられるという主張だ。

そりゃ時間かければ猿はシェークスピアを書くし、LLMは塗り絵をこなすだろうよ。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 15:39

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 15:39

+ 2024年12月21日 15:39

mutaguchi @mutaguchi@fedibird.com

ARC-AGIの問題、人間が時間をかければ誰でもほぼ100%得点できる類の問題なのだから、AIも時間をかけていいのなら、ほぼ100%得点出来たときに初めて、AGIを名乗るべきじゃないか？

といっても、それでも、塗り絵が人間レベルに出来てエライ、というレベルだけどさ。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 15:28

**mutaguchi** @mutaguchi@fedibird.com · + 2024年12月21日 15:28

+ 2024年12月21日 15:28

mutaguchi @mutaguchi@fedibird.com

しかしなー、とにかく、ARC-AGIの問題、IQテストにも満たない、子供向けの塗り絵レベルの問題集で、こんなの人間なら時間かければ誰でも解けるよね。

平均的な人間なら75%しか解けないと言われてるのは何なんだろう。グラフではAvg. Mturkerが75%くらいの正答率になってるけど、これってAmazon Mechanical Turkという人力でマイクロタスクをやってもらうクラウドソーシングサービスで得られる、平均的な解答品質という意味で、これを平均的な人間の能力と見做すのは流石に無い。

これをAGIがどうとかの評価基準にするのは、やっぱり馬鹿げてる。しかも、推論時間スケーリング準拠だから、数時間とかのオーダーで時間かけて、解けたからAGI？いやいや、と。 [参照]

スレッドを表示