mutaguchi @mutaguchi@fedibird.com

- フォロー中

- フォロワー

X: https://x.com/mutaguchi

write only

2023年 7月に登録

0 フォロー中 0 フォロワー

投稿投稿と返信メディア

新しいものを表示

+ 2024年11月18日 07:49

mutaguchi @mutaguchi@fedibird.com

単純に、ボット発声中はマイクを切るという実装は無しではないのだけど、そうすると、ボットの発声を遮るとかはできないからな。

スレッドを表示

+ 2024年11月18日 07:46

mutaguchi @mutaguchi@fedibird.com

話者分離がまだ出来てないから、スピーカーから音声再生すると、その音声をマイクが拾って、ユーザー入力と見做されて音声認識されちゃう。ハウリングみたいなもん。まあヘッドセット使えばいいけど。

あるいは、「前回のボット発言と似た発言が音声入力されたら、それはハウリングと見做して弾く」みたいな処理を入れるのもいいけど、その判定も案外難しい。一字一句同じになるとも限らないしね。

AIでリアルタイム話者分離って、実用的なのあるのかなぁ。ちょっと大げさ過ぎる感じもする。

スレッドを表示

+ 2024年11月18日 05:39

mutaguchi @mutaguchi@fedibird.com

音声入力は非同期で受け付けるんで、キャラ発声中でも入力できるから、音声認識にかかる待ち時間が気にならないな。これは思ったよりリアルタイム会話になってる。ローカルでここまでできるんや…

スレッドを表示

+ 2024年11月18日 05:19

mutaguchi @mutaguchi@fedibird.com

faster-whisperでlarge-v3、fp16じゃなくてint8でも実用精度出るな。これならLLMの7B、Q8_0と同居可能だ。

スレッドを表示

+ 2024年11月18日 05:03

mutaguchi @mutaguchi@fedibird.com

faster-whisperのCPU推論は、さすがに音声会話用途では厳しい。

スレッドを表示

+ 2024年11月18日 04:56

mutaguchi @mutaguchi@fedibird.com

faster-whisperでWhisper large-v3を使ったリアルタイム音声認識結果を、キャラチャットのユーザー入力として流し込めるようにして、キャラとの音声会話が出来るようになった。
キャラ発言中にこっちの音声入力も割り込める。
しかしもうVRAMがギリギリ。12GBは人権ないなぁ。

スレッドを表示

+ 2024年11月17日 19:17

mutaguchi @mutaguchi@fedibird.com

フィラーのキャッシュもしようかなぁ、どうしよう？

スレッドを表示

+ 2024年11月17日 19:15

mutaguchi @mutaguchi@fedibird.com

これ、できた。LLMがストリーム生成した台詞が、適度な長さ（フィラーに限り、最初の句読点まで）になったらその時点で即、TTSの生成キューに入れて、音声合成できたものから即再生。

今のところ理論上、音声応答速度は最速になったはず。良き。

スレッドを表示

2024年11月17日 15:57

mutaguchi @mutaguchi@fedibird.com

https://x.com/EzoeRyou/status/1858130187407519808
そりゃ世界中をくまなく探索するんだよ。当時は探索の楽しみがあったよなぁ。

+ 2024年11月17日 13:56

mutaguchi @mutaguchi@fedibird.com

このキャラチャットシステムは、kv cacheを使っていてChatGPT並に応答が早いので、せっかくだから、音声応答も早くしたかったというのがあった。だいぶ早くなって満足。あとストリーム生成もさくっと実装したいところ。ちょっと作り的にめんどさがあって、滞ってるが。

スレッドを表示

+ 2024年11月17日 13:46

mutaguchi @mutaguchi@fedibird.com

ただし、問題点はある。
「はい、よろこんで、やらせていただきます。」
と、
「はい、」「よろこんで、やらせていただきます。」
は別の台詞なので、TTSでは後者は不自然な発声になることがある。

これの解決方法も一応ある。
「はい、」を生成、再生したあと、「はい、よろこんで、やらせていただきます。」を生成し、「よろこんで…」から再生すればOK。ただ、特にAI音声合成だとタイムスタンプが得られない（おそらくだいたいは）ので、「はい、」の再生時間を取得し、「はい、よろこんで、やらせていただきます。」からその再生時間の前後で無音領域を検索し、無音領域の後部分だけ再生する、みたいな工夫がいる。そこまでするのはちょい面倒。

スレッドを表示

+ 2024年11月17日 13:40

mutaguchi @mutaguchi@fedibird.com

LLMキャラチャットのTTS応答速度を上げる方法をちょっと考えていた。

フィラーを自動挿入する方法はありがちなんだけど、フィラーを含めての台詞生成だろ、と思うのでそれは避けたい。

そこで、「生成された台詞の最初の句読点までをフィラーと見做して、先に音声合成する」という案（実は以前から考えてた）を実装した。

「はい、よろこんで、やらせていただきます。」
という台詞がLLMで生成されたなら、
「はい、」の音声をまず生成し、「よろこんで、やらせていただきます。」を音声生成キューに入れる感じ。

これはまあまあイイ感じだ。ストリーム生成される台詞をストリームのままTTSに送る仕組みに今はなってないんで、これでは若干の遅延はあるけど、それでも台詞生成が律速だから十分効果ある。採用。

この場合だと「はい、」という音声データを生成したらキャッシュして次回からキャッシュを利用することで、応答速度を更に上げることも考えられるけど、TTS側が決定論的に音声を生成するならまだしも、AI生成なら毎回違う音声データが得られるんだし、キャッシュしない方が良いと思う。

2024年11月17日 11:43

mutaguchi @mutaguchi@fedibird.com

県議会と県知事の対立は解消されてないわけだから、兵庫県民はこれから大変よな（兵庫県民）

+ 2024年11月17日 08:56

mutaguchi @mutaguchi@fedibird.com

これは多分、戦術核の使用を言ってるんだとは思うが、戦略核の使用に至っては、AIどころか人間の判断すら挟まる余地がないから、改めて確認する必要もなさそう。（使用する判断を要するする状況がそもそも無い。相手国が自国に打ち込んできたら打ち返すだけなので、判断は要らない）

スレッドを表示

+ 2024年11月17日 08:47

mutaguchi @mutaguchi@fedibird.com

https://www.jiji.com/jc/article?k=2024111700080
これ、「AIは判断を誤る可能性があるから」ということなんだろうけど、「人殺ししたいなら、AIに判断を委ねず、ちゃんと自分の意思で殺めろ」という意味もあるんかなぁ。

+ 2024年11月17日 07:15

mutaguchi @mutaguchi@fedibird.com

ドラクエのルーラは便利だけど、あまりにも効率重視過ぎ、ゲーム的ご都合主義すぎる、という批判はあるだろうが、その代わりに乗り物の速度にリアリティを持たせることで、「乗り物旅」を演出しているんよね。

だからジェットフォイルばりに水上をかっ飛ばす船は、ドラクエではナシなんよ。

スレッドを表示

+ 2024年11月17日 06:55

mutaguchi @mutaguchi@fedibird.com

でもドラクエの乗り物は遅い、ってのは案外重要な話なのかもしれんなぁ。ドラクエの乗り物は、そもそもが、生身で移動できない領域を移動する手段であって、時短手段ではないんよね。時短手段はルーラと旅の扉の役割。

一方のFFは最初から、移動手段かつ時短手段として提供されてる。だからFFの乗り物は船を含めて徒歩より速いが、その代わりにルーラや旅の扉は無い。ナーシャ・ジベリが飛空艇をハードの限界を超えて高速化する必要があったのはこのため。

スレッドを表示

+ 2024年11月17日 06:45

mutaguchi @mutaguchi@fedibird.com

船が遅いっていうレビューにはちょっと笑ってしまった。船は遅いんすよｗ

スレッドを表示

+ 2024年11月17日 06:42

mutaguchi @mutaguchi@fedibird.com

難易度に関しても評判が悪いのだが、難易度を自分で選べるのと、ストーリー後半ほど難易度が上がっていく構成とか、むしろオリジナルの改良じゃん、って思うんだけどな。

オリジナルは、というかレトロゲームにありがちだが、むしろ最初が辛いんだけど、ゲームなんだから本来最初は楽勝で、後半になるほど辛くなるべきよねぇ。

スレッドを表示

+ 2024年11月17日 06:39

mutaguchi @mutaguchi@fedibird.com

Steamのレビューをちょっと見てたんだが、カメラワークの評判がやたら悪いな。しかし、2Dゲームのリメイクでカメラを動かしちゃうと、もはや3Dの別ゲームになるんで、動かさないのが正解だと個人的には考えてる。逆に好ましさポイントだなぁ。

スレッドを表示

古いものを表示

X: https://x.com/mutaguchi

write only

2023年 7月に登録