https://x.com/tegnike/status/1869166293771018674
realtime APIめっちゃ速くていいな。マルチモーダルモデルには応答速度ではどうやったって勝てん。
でも羨ましいから、可能な限り努力はするんや。
以前考えた、投機的音声合成法をもっと投機的にやりたい。
音声認識をもっと細切れにやる。
「おはよう、元気かい?」みたいな入力の場合、「おはよう、」でもう音声認識をかけてしまい、後続のユーザーの台詞までLLMで適当に補完し、AIの台詞の冒頭部分をそれに続く形で推論し、音声合成までやってしまう。
ユーザーの発声が終了したら、即、生成済みのAIの音声を再生しつつ、ユーザーの声を音声認識し、ユーザーの台詞完全版をプロンプトとして得る。
既に生成済みのAIの台詞の冒頭部分をpredicted outputとして、AI台詞をLLMで推論する。
predictが当たってたらラッキー、生成済みのAI音声に続く音声を合成して、再生中の音声に続けて再生する。
predictがはずれたら、再生中の音声をフェードアウトして、AI台詞全体を合成しなおし、再生する。
投機的というか、言い直しを許容する感じ。まあそれも人間ぽくて逆にいいかも。
リアルタイムで並列的に行われる音声会話を、シーケンシャルな推論を行うLLMでエミュレートするのは、結構な困難を伴うと思う。
自分が話したこと(output)が単調増加するだけじゃなく、相手が話したこと(prompt)もリアルタイムに変動するという状況になるので、推論効率や精度が落ちる。そこをいかに落とさずに行うかがポイントになるだろうな。
真にリアルタイム性を有した音声会話の実装は、さすがにv-next案件だな。まずはチャットと、疑似リアルタイムの音声チャットが精度よくできることを優先。