https://x.com/getuka_0401_/status/1858764432308109646Parler-TTSは、特定話者の音声を再現することを目的とはしてないTTSモデルだという理解。大量の音声データを機械学習して作製した合成音声AIとしては、建前的にまっとうなアプローチだと思われる。ちょっと試してみようね。
とりあえずサンプルだけ試した。large版はまだちゃんと推論できないみたい。VRAMは10GBくらい消費してた。CPU推論も一応はできる。
mini版はいけた。GPUだと4GBくらい消費で高速。リアルタイムTTSもできるレベルかな。CPUでもなんとか実用速度で動く。精度はサンプル文の限りでは良好。
話者(というか発声パラメータだろうけど)固定ってどうやるんだろ。
Parler-TTSのオリジナルのリポジトリをみてきたが、話者固定って、普通にプロンプトで話者名を指定する感じだった。つまり話者決め打ち学習もしてあるってことかな。イラストAIで言えば、artistタグでの学習をやってるというのと近い。じゃあこれはモデル製作者に、話者名を開示してもらわないと試せんな。
なんで準備中なんだろ。権利関係の調整でもしてるんかな?
あと推論したあと、謎にほぼ同じ容量のmodel.safetensorsをダウンロードしてくることがあるんだけど、これ何だろうか。
miniモデルも長文は普通に破綻するな。
様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。