https://x.com/getuka_0401_/status/1858764432308109646
Parler-TTSは、特定話者の音声を再現することを目的とはしてないTTSモデルだという理解。大量の音声データを機械学習して作製した合成音声AIとしては、建前的にまっとうなアプローチだと思われる。ちょっと試してみようね。
あと推論したあと、謎にほぼ同じ容量のmodel.safetensorsをダウンロードしてくることがあるんだけど、これ何だろうか。
https://huggingface.co/2121-8/japanese-parler-tts-mini-bate/discussions/1
把握した。HFにbinとかckptなどがあったら自動的にsafetensorsに変換してPR投げるボットが動いてて、これを拾ってきたんだ。
なにそれ感が半端ないが、そんなもんです?やめてほしい…
miniモデルも長文は普通に破綻するな。