FLOPsのグラフが右肩上がりになるのは、時代を経るとともにモデルが大型化し、より多くの計算資源を要したことを示しているだけ。この先も、より大型のモデルを作るのならば、FLOPsは右肩上がりに当然なるが、そのFLOPsを満たす計算資源が実際に提供される見込みは何もない。というかOpenAIはじめ、もうそれは無理だと分かってきたから、推論時間スケーリング則とか言ってるわけじゃないですか。

FLOPsという単位を考えたのは誰かは知らないけど、こういった混同を意図的に誘うために作った単位だとしか思えん。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 13:12

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 13:12

+ 2024年11月19日 13:12

mutaguchi @mutaguchi@fedibird.com

https://www.sciencedirect.com/science/article/pii/S2773186324001014?via=ihub
一応目を通すだけは通した。
そもそもが無限の猿定理に関する議論じゃなくて、我々の宇宙で、という制約をかけた「有限の猿定理」に関する議論であるな。結論はまあgizmodeの記事通りではあるが。

どうもこれ、discussion節にある、「このように、現実の猿は人間のような創造的な仕事は出来ない。同様のことは昨今の生成AIでも言えることで、生成AIにも創造なんて出来ない」が言いたかっただけ説はあるなｗ

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 12:59

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 12:59

+ 2024年11月19日 12:59

mutaguchi @mutaguchi@fedibird.com

「無限の猿定理」って無限とも思える途方もない時間をかければ、猿が適当にタイピングした結果が、たまたま文学作品として完成する可能性はゼロではないよ、と言ってるだけで、我々の住むこの宇宙での実現可能性なんて何も論じてないやん。

しかし、こういう論文が真面目に（？）書かれるということは、そういう前提は意外と受け入れられてなかったということか？

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 12:51

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 12:51

+ 2024年11月19日 12:51

mutaguchi @mutaguchi@fedibird.com

https://www.gizmodo.jp/2024/11/sorry-monkeys-wont-write-shakespeare-before-the-universe-ends.html
「無限の猿定理」は有限の事象だし、宇宙の寿命も有限だし、無限の猿定理で要する時間>宇宙の寿命なのは改めて計算するまでもなく明らかだし、何が言いたいのか全く分からんな。論文読む価値…なさそう。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 10:56

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 10:56

+ 2024年11月19日 10:56

mutaguchi @mutaguchi@fedibird.com

https://huggingface.co/2121-8/japanese-parler-tts-mini-bate/discussions/1
把握した。HFにbinとかckptなどがあったら自動的にsafetensorsに変換してPR投げるボットが動いてて、これを拾ってきたんだ。
なにそれ感が半端ないが、そんなもんです？やめてほしい…

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 10:33

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 10:33

+ 2024年11月19日 10:33

mutaguchi @mutaguchi@fedibird.com

miniモデルも長文は普通に破綻するな。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 10:14

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 10:14

+ 2024年11月19日 10:14

mutaguchi @mutaguchi@fedibird.com

あと推論したあと、謎にほぼ同じ容量のmodel.safetensorsをダウンロードしてくることがあるんだけど、これ何だろうか。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 09:59

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 09:59

+ 2024年11月19日 09:59

mutaguchi @mutaguchi@fedibird.com

なんで準備中なんだろ。権利関係の調整でもしてるんかな？

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 09:58

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 09:58

+ 2024年11月19日 09:58

mutaguchi @mutaguchi@fedibird.com

Parler-TTSのオリジナルのリポジトリをみてきたが、話者固定って、普通にプロンプトで話者名を指定する感じだった。つまり話者決め打ち学習もしてあるってことかな。イラストAIで言えば、artistタグでの学習をやってるというのと近い。じゃあこれはモデル製作者に、話者名を開示してもらわないと試せんな。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 09:55

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 09:55

+ 2024年11月19日 09:55

mutaguchi @mutaguchi@fedibird.com

とりあえずサンプルだけ試した。
large版はまだちゃんと推論できないみたい。VRAMは10GBくらい消費してた。CPU推論も一応はできる。

mini版はいけた。GPUだと4GBくらい消費で高速。リアルタイムTTSもできるレベルかな。CPUでもなんとか実用速度で動く。精度はサンプル文の限りでは良好。

話者（というか発声パラメータだろうけど）固定ってどうやるんだろ。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 09:00

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月19日 09:00

+ 2024年11月19日 09:00

mutaguchi @mutaguchi@fedibird.com

https://x.com/getuka_0401_/status/1858764432308109646
Parler-TTSは、特定話者の音声を再現することを目的とはしてないTTSモデルだという理解。大量の音声データを機械学習して作製した合成音声AIとしては、建前的にまっとうなアプローチだと思われる。ちょっと試してみようね。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 03:52

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 03:52

2024年11月19日 03:52

mutaguchi @mutaguchi@fedibird.com

Whisper large-v3、実はチャット用の音声認識としては、十分な性能とは言えない面もある。というのもあれは相槌とかの短文に弱い。コンテキストが不足するせいだろう。

だったら、ユーザーの発声の前のボット発声もコンテキストとして入力すれば、それは「会話文の書き起こし」になるので精度上がるのかもしれないな。まあ富豪的なのでやりたくはない。

とはいえ、キャラチャット程度ならそこそこ使えるのも確か。正確に認識されなくても、そのままLLMに入力しても、何となく会話は成立するのだ。

あまりに変な音声認識結果だと、キャラが「お前何わけわからんこと言ってるの？」と煽ってくるけど、それはそれで味だと思う。結構おもろいよ。言い間違えた、とか、お前の聞き間違いじゃボケ、とか、そういう風にそのやり取りも楽しめばいいんです。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月18日 18:14

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月18日 18:14

+ 2024年11月18日 18:14

mutaguchi @mutaguchi@fedibird.com

あと、AIキャラチャットに、チャットチューニングを施したLLMは不適、というのも私の中で既に結論が出ている。

チャットモデルというのは、「人間とAIの会話」を学習したモデルなので、AIキャラチャットに用いると、「人間がAIに対して、キャラのように振る舞った回答を得る」行為になってしまう。だから回答内容は、いかにもChatGPT的な内容に、口調だけ再現したキャラになりがち。

だからAIキャラチャットは、小説文の台詞補完という形で実装するのが一番、精度が良い。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月18日 18:06

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月18日 18:06

+ 2024年11月18日 18:06

mutaguchi @mutaguchi@fedibird.com

AIキャラチャットで一番大切なのは、応答速度ではない、という結論に至りつつある。チャットをターン制バトルじゃなくて、アクティブタイムバトルにするのが、たぶん一番大事だ。

チャットをターン制としてpull的、同期的に処理しようとするから、応答速度が気になってしまうんだろう。でも、会話って必ずしも「応答」するもんじゃないし、即座の「応答」があると会話っぽいかというと、そんなことも無い。応答速度を気にするあまり、フィラーを機械的に挿入して、いかにも機械との会話っぽくなってしまって本末転倒状態まである。

任意のタイミングで、こちらの話がそれなりの時間内に相手に伝わり、任意のタイミングで相手の話がこちらに伝われば、会話は成立するんだ。我々は普通にそれくらいの遅延があるボイスチャットを人間同士でもやってるわけで。

スレッドを表示