**mutaguchi** @mutaguchi@fedibird.com · 2024-11-19T09:00:14Z

mutaguchi @mutaguchi@fedibird.com

https://x.com/getuka_0401_/status/1858764432308109646
Parler-TTSは、特定話者の音声を再現することを目的とはしてないTTSモデルだという理解。大量の音声データを機械学習して作製した合成音声AIとしては、建前的にまっとうなアプローチだと思われる。ちょっと試してみようね。

2024年11月19日 09:00 · · Web · · ·

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 09:55

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 09:55

2024年11月19日 09:55

mutaguchi @mutaguchi@fedibird.com

とりあえずサンプルだけ試した。
large版はまだちゃんと推論できないみたい。VRAMは10GBくらい消費してた。CPU推論も一応はできる。

mini版はいけた。GPUだと4GBくらい消費で高速。リアルタイムTTSもできるレベルかな。CPUでもなんとか実用速度で動く。精度はサンプル文の限りでは良好。

話者（というか発声パラメータだろうけど）固定ってどうやるんだろ。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 09:58

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 09:58

2024年11月19日 09:58

mutaguchi @mutaguchi@fedibird.com

Parler-TTSのオリジナルのリポジトリをみてきたが、話者固定って、普通にプロンプトで話者名を指定する感じだった。つまり話者決め打ち学習もしてあるってことかな。イラストAIで言えば、artistタグでの学習をやってるというのと近い。じゃあこれはモデル製作者に、話者名を開示してもらわないと試せんな。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 09:59

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 09:59

2024年11月19日 09:59

mutaguchi @mutaguchi@fedibird.com

なんで準備中なんだろ。権利関係の調整でもしてるんかな？

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 10:14

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 10:14

2024年11月19日 10:14

mutaguchi @mutaguchi@fedibird.com

あと推論したあと、謎にほぼ同じ容量のmodel.safetensorsをダウンロードしてくることがあるんだけど、これ何だろうか。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 10:33

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 10:33

2024年11月19日 10:33

mutaguchi @mutaguchi@fedibird.com

miniモデルも長文は普通に破綻するな。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 10:56

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月19日 10:56

2024年11月19日 10:56

mutaguchi @mutaguchi@fedibird.com

https://huggingface.co/2121-8/japanese-parler-tts-mini-bate/discussions/1
把握した。HFにbinとかckptなどがあったら自動的にsafetensorsに変換してPR投げるボットが動いてて、これを拾ってきたんだ。
なにそれ感が半端ないが、そんなもんです？やめてほしい…

ログインして会話に参加

トレンドタグ

リソース

開発者向け

Mastodon とは？

fedibird.com

さらに…