でも羨ましいから、可能な限り努力はするんや。
以前考えた、投機的音声合成法をもっと投機的にやりたい。
音声認識をもっと細切れにやる。
「おはよう、元気かい?」みたいな入力の場合、「おはよう、」でもう音声認識をかけてしまい、後続のユーザーの台詞までLLMで適当に補完し、AIの台詞の冒頭部分をそれに続く形で推論し、音声合成までやってしまう。
ユーザーの発声が終了したら、即、生成済みのAIの音声を再生しつつ、ユーザーの声を音声認識し、ユーザーの台詞完全版をプロンプトとして得る。
既に生成済みのAIの台詞の冒頭部分をpredicted outputとして、AI台詞をLLMで推論する。
predictが当たってたらラッキー、生成済みのAI音声に続く音声を合成して、再生中の音声に続けて再生する。
predictがはずれたら、再生中の音声をフェードアウトして、AI台詞全体を合成しなおし、再生する。
投機的というか、言い直しを許容する感じ。まあそれも人間ぽくて逆にいいかも。
predicted outputをllama.cppで実現する方法がよく分からないので、今は実装できないけどね。
他の方法としては、predicted outputではなく、確定outputとしてしまう。つまり、ユーザー台詞を補完したものに対するAIの返答の冒頭部分を、正解としてそのままプロンプトに載せ、後続を推論する方式。この方式だと回答が不自然になる可能性も出てくるけど、キャラチャットなんて、それくらいの不自然さを許容しても別に構わんと思う。