フォロー

Stable Diffusion 

ネットで拾ったStable diffusion解説画像詰め合わせから推測するに。。。

① まず入力文字列を数列に変換。
② 数列をテキストエンコーダーにかける
③ latentイメージを用意する。なければランダムノイズ
④ ②③の結果をUnetに入力。Unetは何回も繰り返す。スケジュラーが何回Unetを繰り返すかを管理する。
⑤ VAE decoderを通す

Stable Diffusion は画像をノイズにするのの「逆」をやる仕組み。VAEで暗号・複合することで計算量を縮小。VAE encoder もあるが、これは主に学習に利用して、推論には使わない。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。