ネットで拾ったStable diffusion解説画像詰め合わせから推測するに。。。
① まず入力文字列を数列に変換。
② 数列をテキストエンコーダーにかける
③ latentイメージを用意する。なければランダムノイズ
④ ②③の結果をUnetに入力。Unetは何回も繰り返す。スケジュラーが何回Unetを繰り返すかを管理する。
⑤ VAE decoderを通す
Stable Diffusion は画像をノイズにするのの「逆」をやる仕組み。VAEで暗号・複合することで計算量を縮小。VAE encoder もあるが、これは主に学習に利用して、推論には使わない。