とりあえずサンプルだけ試した。
large版はまだちゃんと推論できないみたい。VRAMは10GBくらい消費してた。CPU推論も一応はできる。
mini版はいけた。GPUだと4GBくらい消費で高速。リアルタイムTTSもできるレベルかな。CPUでもなんとか実用速度で動く。精度はサンプル文の限りでは良好。
話者(というか発声パラメータだろうけど)固定ってどうやるんだろ。
https://huggingface.co/2121-8/japanese-parler-tts-mini-bate/discussions/1
把握した。HFにbinとかckptなどがあったら自動的にsafetensorsに変換してPR投げるボットが動いてて、これを拾ってきたんだ。
なにそれ感が半端ないが、そんなもんです?やめてほしい…
Parler-TTSのオリジナルのリポジトリをみてきたが、話者固定って、普通にプロンプトで話者名を指定する感じだった。つまり話者決め打ち学習もしてあるってことかな。イラストAIで言えば、artistタグでの学習をやってるというのと近い。じゃあこれはモデル製作者に、話者名を開示してもらわないと試せんな。