Whisper large-v3、実はチャット用の音声認識としては、十分な性能とは言えない面もある。というのもあれは相槌とかの短文に弱い。コンテキストが不足するせいだろう。
だったら、ユーザーの発声の前のボット発声もコンテキストとして入力すれば、それは「会話文の書き起こし」になるので精度上がるのかもしれないな。まあ富豪的なのでやりたくはない。
とはいえ、キャラチャット程度ならそこそこ使えるのも確か。正確に認識されなくても、そのままLLMに入力しても、何となく会話は成立するのだ。
あまりに変な音声認識結果だと、キャラが「お前何わけわからんこと言ってるの?」と煽ってくるけど、それはそれで味だと思う。結構おもろいよ。言い間違えた、とか、お前の聞き間違いじゃボケ、とか、そういう風にそのやり取りも楽しめばいいんです。