開発者氏、こういうAI音声合成ソフトにどういうニーズがあってどういう使われ方をしているのか、誰よりも良く知っている筈だし、その問題点も嫌というほど理解している筈なのに、なんでボイスモデル共有サイトをやろう(協力しよう)と思ったのか不思議まであるんよ。

スレッドを表示

今回アップロードされたのは、故人の声優のボイスモデルだそうだが、これからは(伏せ字)アニメキャラとかVTuberとかのボイスモデルがどんどん上がるだろうし、どうやって規約で弾くのか、あるいは弾かないつもりなのか、注視していくかな。

下手を打つと声優やアニメやVTuberの版権元から怒られが発生するから、そこは管理が死ぬほど大変だろうけどうまいことやってほしいですね。というか、ボイスモデル共有サービスは、時勢を考えればやめといた方がやっぱりいいと思うなぁ…。

スレッドを表示

x.com/aivis_project/status/185
あー、利用規約や削除基準など定めないまま、HUBをサービスインしちゃったか(まあ知ってた)

スレッドを表示

A-BをA-Cに切り替えるコストは、KV cacheのsave & loadを駆使しても、そんなに安い処理では無いのも事実なので、なるべく数ターンに渡って会話相手を固定できるようにしといた方がいいかもしれない。

スレッドを表示

AがB、Cのどちらに話しかけるか、つまりA-B会話にするかA-C会話にするかの選択は、LLMに敢えて選択させるまでもないかな。
@ Bみたいなコマンドや、「おはようCさん」みたいな台詞からの文字列検索で自動決定で十分だろう。

スレッドを表示

複数人チャットの場合、A-B会話中に【A】が返ってきたら次の話者はユーザーになるし、【B】なら次ターンもA-Bの会話、【C】なら次ターンはA-Cの会話でA(ユーザー)発言を省略、となる。

スレッドを表示

「次の話者を選択する仕組み」も既に実装してある。
実装は単純で、

A「おはよう」
B「

というプロンプトが、

おはようございます」
A「そ

と補完された場合、【おはようございます】部分を推論結果として出力し、【A】部分を次の話者として記憶する。それだけ。

スレッドを表示
古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。