**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 17:17

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 17:17

mutaguchi @mutaguchi@fedibird.com

2024年11月14日 17:17

SoraとかFlux.1とかSD3で使われてる、Diffusion Transformer（DiT）をよく知らなかったから、ざっくり勉強していた。
まだざっくりした理解だけど、latentをシーケンスに変形したものと、プロンプトと時間情報を条件として共にtransformerブロックに入力し、予測ノイズを出力する、みたいな感じかな。

なんかLatent Diffusion Modelに比べてずいぶんシンプルな構造だなあ、というのが第一印象。LDMではU-Net構造を用いて、画像の全体構造から細部構造にかけて順番に処理していくところが、ちょっと人間のお絵描きプロセスを模倣してる部分があったようにも思ったが、DiTではノイズをtransformerに入れて、除去すべきノイズを直接推論するというのは、LLMみたいだし、力技というかそれでいけるんや…という感想。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 17:19

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 17:19

2024年11月14日 17:19

mutaguchi @mutaguchi@fedibird.com

これはDiTの原理の部分だから、各実装はもうちょっと複雑なんだろうとは思うが、まあぼちぼち見ていくか。

**mutaguchi** @mutaguchi@fedibird.com · 2024-11-14T17:32:57Z

mutaguchi @mutaguchi@fedibird.com

https://www.reddit.com/r/LocalLLaMA/comments/1ekr7ji/fluxs_architecture_diagram_dont_think_theres_a/
ググって見つけたFluxのアーキテクチャ図。なんだこれ。と思ったけどテキストエンコーダーがCLIPとT5 Encoderの2系統あって、このうちT5 Encoderでもself attentionしてるところがオリジナルのDiTと比較すると複雑さを増す主因になってるのかな。

なんで各ブロックをこう繋ぐと精度高い絵が出るのかは全く分からんけど、そう繋いだらうまくいくというなら、受け入れるしかあるまい。

2024年11月14日 17:32 · · Web · · ·

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 17:44

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 17:44

2024年11月14日 17:44

mutaguchi @mutaguchi@fedibird.com

https://henatips.com/page/63/
SD3もなんだか複雑だなあ。眠くなってきたのでまた今度見よう…

ログインして会話に参加

トレンドタグ

リソース

開発者向け

Mastodon とは？

fedibird.com

さらに…