新しいものを表示

現状の正答率88%程度の能力でも、クラウドソーシングよりは上の性能だから良し、としたとしても、クラウドソーシングで数百円、理系博士にやらせても2000円かからないような仕事を、LLMが50万円かけて出来た、というのは、本当に仕事が出来たうちに入るのか問題もある。

AGIベンチマークのレギュレーション上では合格だから、というのは特に意味のない主張だしね。

スレッドを表示

やはり推論時間スケーリング則は無限の猿定理と同じ主張だと思えてならない。どちらも確率は試行回数によって上げられるという主張だ。

そりゃ時間かければ猿はシェークスピアを書くし、LLMは塗り絵をこなすだろうよ。

スレッドを表示

ARC-AGIの問題、人間が時間をかければ誰でもほぼ100%得点できる類の問題なのだから、AIも時間をかけていいのなら、ほぼ100%得点出来たときに初めて、AGIを名乗るべきじゃないか?

といっても、それでも、塗り絵が人間レベルに出来てエライ、というレベルだけどさ。

スレッドを表示

しかしなー、とにかく、ARC-AGIの問題、IQテストにも満たない、子供向けの塗り絵レベルの問題集で、こんなの人間なら時間かければ誰でも解けるよね。

平均的な人間なら75%しか解けないと言われてるのは何なんだろう。グラフではAvg. Mturkerが75%くらいの正答率になってるけど、これってAmazon Mechanical Turkという人力でマイクロタスクをやってもらうクラウドソーシングサービスで得られる、平均的な解答品質という意味で、これを平均的な人間の能力と見做すのは流石に無い。

これをAGIがどうとかの評価基準にするのは、やっぱり馬鹿げてる。しかも、推論時間スケーリング準拠だから、数時間とかのオーダーで時間かけて、解けたからAGI?いやいや、と。 [参照]

スレッドを表示

これ、1問解くのに50万円ではないよね?500問で50万円よな。上限$10,000 USDって書いてあるしな。

でも制限時間12時間になってるな。だとすればo3 highの実行は、数時間で50万円もかかる?10円/1秒のオーダーでかかる計算になるが。o1 highに比べると計算リソースの割り当てが相当多い感じなのかな。

もっとも、ARC-AGIで高得点を取るために、逆算してo3 highの計算リソースを割り当てたと考えるのが自然か。

スレッドを表示

x.com/optozorax/status/1870332
お、o3は実際、こっちの解を提出して間違い判定を食らったのか。
うん、o3くんが正しいと思うよ私もw

スレッドを表示

…でもこの問題、解答が一意に定まらない気がするな。左右の同じ辺に接する青ドット同士を結んでも良くない?

その操作を許可した場合、青線と接する赤矩形の処理が未定義なので、未定義操作が生まれるということは、不許可な操作だったのだ、と結論するのが正解なのかしら…

スレッドを表示

arcprize.org/arc-agi-pub
x.com/Mnestick/status/18701986
o3が50万円かけて解いた問題、こんなんらしいんですよね。ベンチマークだからというのは百も承知だけど、こんな問題、人間なら一瞬…とはいかずともちょっと何分か考えたら分かることだし、LLMに何時間か何日かしらんがかけて、無理に解かせる必要性を全く感じないわね。こんな問題、言語化して解く系の問題じゃないだろうと。

直感で法則みつけて、その直感が合ってるのか検証するタイプの問題で、LLMにとって明らかに苦手な問題だしなぁ。

だって、海外企業の無断学習はNGで、自分たちがやるのはOK、というなら、学習データは自分のもの、という主張をしていることになるよ?

(多くは)同じ日本人が作製した画像なり音声なりであるから、日本人である私のものだ、というのは、いくらなんでも思い上がりすぎ。

スレッドを表示

無断学習は合法で、誰がやっても(海外企業がやっても)それは変わらないんだから、変に海外企業による無断学習だ搾取だ、なんて言わずに、堂々と無断学習してサービス提供すればいいだけだと思うんだよね。

スレッドを表示

しかし、日本人の声のデータが海外企業に無断学習される、と言いながら、自前で無断学習してボイスモデル作って商売してりゃ世話ないな。(データセット非公開、クレジット無しなら、無断学習と捉えるしかない)

画像AIではAI Picassoがほぼ同じスタンスでやってるんだけど、ほんとにこの精神性はよく分からない。無断学習は搾取だと言いつつ、自分は無断学習する論理の整合性が謎。

スレッドを表示

あのDMMさんのことだから、声の権利とか、利用するリスクとか、色々熟考した上でのサービスインだろうなぁ、と思ってたけど、まさかのサービス作るだけ作って、生成AI周りの微妙な事情あれこれを何も考えてない疑惑が私の中で浮上した。

スレッドを表示

こんなにユーザーに不誠実なサービスってあるかねぇ…

スレッドを表示

note.com/1230yuji/n/n55f70e420
これ読んで把握した。にじボイスの運営会社Algomaticは、DMMから出資を受けているから、サービスにDMMの名前を最初は使っていたけど(?)、今は独自ブランドにしたいから、名称変更した。

でも生成AI技術は日進月歩だから、サービスを作ったらすぐに次を作らないといけない。そのために、作ったサービスの事業責任者を業務委託契約で募集して、全ての業務をその人に任せる、ということをしている(したい)らしい。

うーん、なんだそれ…これじゃ安定したサービス運営なんて全く期待できないな。にじボイスに未来なさそう。

スレッドを表示

x.com/1230yuji/status/18704326
これ誰に向けて言ってるんだろう?
にじボイスってDMMのサービスではないの?

X見てると、AI詳しい人でもo3なんであんなに高いの?と言ってる人が多いな。

推論時間スケーリング則のパラダイムにおいて、コスト≒推論時間≒推論能力なのだから、コストがかかること自体に不思議はないと思うんだが…。

どっちかというと問題は、推論能力を人間並に押し上げるために必要な推論時間≒コストがもう全然現実的じゃなくなった点じゃないですか?

スレッドを表示

こういうドクターショッピングって、患者は前の医者の治療内容を悪し様に言う(そこまではなくても、あの治療は納得できなかったからここに来た、くらいは言う)から、次の医者はその治療を避けざるを得ない、ってのはあるはずだし、足専門病院Bが異常とは言い切れないか。

スレッドを表示

x.com/masumi_asano/status/1870
おそらく内反小趾だろうから、最初の足専門病院Aが一番まともな対応な気がする…。インソール1足5万円、保険効くはずだし患者負担は1.5万円くらいよな。

整体は論外として、恐らく自由診療の歩き方矯正コースを初手で勧める足専門病院Bはなんだそれ感あるけど。

しかし患者が本当に求めるものは、お金もかからんし辛い治療も必要ない、近所の小さな整形外科がしてくれる、即効性の対症療法なんだよなぁ…

古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。