フォロー

Whisper large-v3、実はチャット用の音声認識としては、十分な性能とは言えない面もある。というのもあれは相槌とかの短文に弱い。コンテキストが不足するせいだろう。

だったら、ユーザーの発声の前のボット発声もコンテキストとして入力すれば、それは「会話文の書き起こし」になるので精度上がるのかもしれないな。まあ富豪的なのでやりたくはない。

とはいえ、キャラチャット程度ならそこそこ使えるのも確か。正確に認識されなくても、そのままLLMに入力しても、何となく会話は成立するのだ。

あまりに変な音声認識結果だと、キャラが「お前何わけわからんこと言ってるの?」と煽ってくるけど、それはそれで味だと思う。結構おもろいよ。言い間違えた、とか、お前の聞き間違いじゃボケ、とか、そういう風にそのやり取りも楽しめばいいんです。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。