新しいものを表示

人間の運転手は客と一蓮托生みたいなところあるから、命を預ける気にもなるのだが、機械の運転手にはやっぱり難しいな。もし客が死ぬような事故を起こすようなことがあれば、そのたびに自動運転車メーカーの社員が切腹する、に匹敵する覚悟が見えないと厳しい。

スレッドを表示

自動運転車が何となく不安、というのは、人間の運転手が運転してたら「運転手も事故を起こして痛い目をみたいとは思わないだろうから、最低限の安全運転はしてくれるだろ」という安心感が働くけど、自動運転車はなにせ意思のない機械がやることだから、安心感の根拠に乏しい、というのはあるよな。

だから、ただ統計を示して、うちの自動運転車は事故を起こさないので安全です、というんじゃなくて、うちの自動運転車は安全対策として具体的にこういうことをやってますよ、と言って欲しさがある。

スレッドを表示

forbesjapan.com/articles/detai
信号待ちで追突されたような、過失割合0の事故を除外すれば、自動運転車が原因となる保険会社への人損・物損請求は、人間運転車に比べて少なかった、という調査らしい。

たしかに自動運転車は、ちゃんと交通ルールを守るだろうから、そうなるだろうな、と思う一方で、人間が普通やらないような運転をしたために誘発される事故、たとえばこの前動画で見たのだが、減速タイミングが遅いことによる追突事故とかが現実に発生していることは事実であり、このことをもって「安全」だというのはどうかな、と思った。

あとちょっと思ったのだが、加害者側も怪我をして、相手側の保険から保険金が支払われるケースも含まれてるのかな。というのも、自動車事故で一番怪我をしやすいのはドライバーだが、自動運転車はドライバーが居ないため、加害者側の怪我というのは発生しない。そのバイアスが考慮されてるかどうかは、ちゃんと原文読まないとわからんな。

まあいずれにしても、自動運転車は、ドライバーが居ない分、怪我をする可能性がある人間がより少ないというのは、普通に自動運転のメリットではあるけども。

連鎖的思考をしている文章を出力することは、思考ではないだろう。

スレッドを表示

oシリーズがやってるChain of Thoughtも、「連鎖的思考をしている文章」を生成する手法で、やってることとしてはLLMそのもの。

学習時には「問題文→連鎖的思考をしている文章→回答文」をたくさん学習させる。

生成時には「問題文」をプロンプトとして与え、後続トークンとしてもっとも確率が高い並び方、すなわち「→連鎖的思考をしている文章→回答文」が推論されるので、ここから「回答文」部分を抜き出しているだけ。

スレッドを表示

せっかくコンピューターを使えばもっと確実な演算が出来るのに、わざわざ「人間の思考」みたいな不確かな演算をエミュレートしてまで頑張る理由って、別にそこまでないんじゃないか?

従来型のプログラムではどうしても出来ないタスクだけ、LLMにやらせればいいんじゃないのか?

スレッドを表示

LLM、原理的に、思考ができるものとは思ってない。

いくらニューラルネットワークが人間の思考をモデルにしてる、アテンション機構が人間の認識能力をモデルにしてる、と言われても、人間が本当にそのモデルに従って思考してるかは、何も証明されてないわけだしな。

o3の発表が色々示唆に富むものであったのは確か。

推論時間スケーリング則、実用域の上限に早くも到達したな、とか。

CoTモデルにそこまで強い汎化性能は無く、問題種別ごとにチューニングしないと性能出ないんだな、とか。(たとえばARC-AGIをCoTするモデルは、ARC-AGIの解き方を学習する必要がある)

スレッドを表示

何より、多くの人が指摘している通り、oシリーズの手法では、回答の正しさをモデル自らが評価可能な問題しか正答を与えることができない。
たとえば数学問題とか、ARC-AGIのようなパズル問題とか。

スレッドを表示

Chain of Thoughtの鎖を死ぬほど延ばしたら性能が上がる、というのは、無限の猿定理と同等の主張だと私は思ってる。

低確率で正答できる問題を、いっぱい試したら、そのうち正答できた、というのは「思考」と言えるのか。また、それを思考だと受け入れるとしても、実用性はあるのか。計算資源は有限なので。

スレッドを表示

「分からないからきっと凄いんだ」というのは思考停止でしかなく、人類の悪い癖だと思う。

次に、ARC-AGI semi private 100問で75.7%や87.5%という正答率は本当に凄いのか?という点についても再考が必要。

実際やればわかるけど、ARC-AGIの問題は難しくない。難しめの問題でも、落ち着いて考えれば5分もあれば分かる。一般的なIQテストとは全然違う。平均的な(それこそIQ=100程度の)人間が、ちゃんと時間を与えられて、真面目にやれば、ほぼ100%正答できる問題だと思う。

ARC Prizeの言う、平均的な人間の正答率が73.3~77.2%程度というのは、あくまで、Amazon Mechanical Turkのクラウドワーカーに、1問5ドルで委託した場合の平均正答率でしかない。5ドルぽっちの報酬で、しかも間違えても別に罰則はないようなタスク、誰もが真面目に全力でやりますかね、という。

スレッドを表示

ちなみに、o3 high(tuned)の計算コストは非公開だが、o3 low(tuned)の172倍の計算量を投入しているので、単純計算で100問解くのに5000万円くらいかかっている。それでも正答率は87.5%止まり。
計算量はlowの172倍なのに、実計算時間は10倍の23時間に留まっているが、これは並列実行したことによる時短だと思われる。というか、24時間以内でタスクが完了するように逆算して、計算リソースを割り当てたと予想される。

スレッドを表示

o3 low(tuned)が高得点を得た理由は、以下のように推測できる。

・oシリーズは、長大なChain of Thoughtによる推論を行うようにファインチューニングされたLLMである。つまり、「自然言語により、仮説を立ててその仮説の正しさについて自ら検証を行う、という処理を多数回試行することにより、正答出力の確率を高める」というタスクをこなすことができる。試行回数を増やせば増やすほど、正答の確率が上げられるので、正答率≒AIとしての能力は、推論時間≒計算量≒計算コストをかけるほど上がる。(ちなみに線形に増加するわけではない)

・o3(tuned)は、ARC-AGIの公開問題の75%を使ってファインチューニングしている。どのようにファインチューニングしたのかは非公開ではあるが、ARC-AGIのCoTでの解き方を学習させたと推測できる。

・o3 low(tuned)は、ARC-AGI semi private 100問で75.7%の正答率を達成するために、約2時間、$2000(約30万円)もかけている。

スレッドを表示

note.com/yatima/n/nf1bb8a28477
o3 low(tuned)がARC-AGIをあんなに解けるのは、計算量でカバーしてるだけでは説明できないので、人間と異なる異質な汎用知能なのでは、という考察。

しかしこれには異を唱えたいな。提示された情報を紐解けば、やっぱり計算量でカバーしてるだけだと推測できるので。

国税庁の「年調ソフト」はあるが、あれは事業者側が電子申請を受理するために、従業員が電子申告書を作成するためのソフトという性格のものだろうから、事業者側が紙ベースの場合には、従業員側にとっては面倒なだけだな。

マイナカードもアカウント作成も不要で、ぽちぽち入力したら勝手に計算してくれて、PDF出力してくれるやつがいい。

スレッドを表示

まあ国としては国民皆確定申告の世界を目指してるっぽいし、今更、源泉徴収・年末調整関係の書類作成に便宜を図る措置はしなさそう。

スレッドを表示

x.com/gorillataxjp/status/1870
1枚の紙だけで、素人に税金の計算をやらせられるの、なかなか凄いと私は思うのだけどな。

まあ、国税庁ホームページの確定申告書作成コーナーみたいなやつを、源泉徴収関係の書類でも用意して欲しさはあるかもしれない。

古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。