"開発されたAIは「発話しようとしている単語」ではなく「発話しようとしている音の構成」を読み取るようにトレーニングされているとのこと。例えば「Hello」という単語は「HH」「AH」「L」「OW」という4つの音声の組み合わせとして認識されてから単語として再構成されます。この音の構成を読み取るシステムの導入によって、単語を直接読み取ろうとするシステムより3倍はやく音声化が可能となりました"
https://gigazine.net/news/20230825-ai-voice-paralyzed-woman/