熾 @NGEL_TRIP@fedibird.com · 2024-02-02T14:08:52Z

熾 @NGEL_TRIP@fedibird.com

画像生成AI・Stable Diffusionのエンコーダーに見つかった致命的な欠陥とは？ - GIGAZINE
https://gigazine.net/news/20240202-stable-diffusion-vae-critical-flaw/

2024年02月02日 14:08 · · Web · · ·

**君継葭月🔑** @JiaYue@misskey.noellabo.jp · 2024年02月02日 14:11

**君継葭月🔑** @JiaYue@misskey.noellabo.jp · 2024年02月02日 14:11

2024年02月02日 14:11

君継葭月🔑 @JiaYue@misskey.noellabo.jp

@NGEL_TRIP@fedibird.com VAEブラックホール問題やね
壺でも今日話に上がってたやつや

VAEブラックホール問題
VAEは画像をLatentに変換し、Latentを画像に変換する役割がある訳やが
この時ある領域においてLatentが同じなら、同じ画像になって欲しいというのが処理の一貫性やらの点で良いとされとる

しかしながらCompVisが作ったVAE(SD1.5までで幅広く使われとる)には
Latent内の数ピクセルが画像全体に大きく影響を及ぼすことが分かった
(報告者はこの数ピクセルで画像全体の構図や質感を伝えるようなチートを仕込んだか、偏った学習で獲得してしまったかと予測しとる)
こうなると画像生成時にその数ピクセルをどう組むかがキモになるのに
知らされとらんかった訳やからモデルもサンプラーも何もしとらん
結果的に「数ピクセルで画像変わるのにその対策を盛り込まず、ロクに対策できてないか、その対策に学習時間とモデルの領域を割いたクソが量産された」と批判しとる

「言い過ぎやで別にええんやないの」という反論もあるし、SDXLは新たに原則に従ってVAEを作ったので影響は無いとされる

https://fate.5ch.net/test/read.cgi/liveuranus/1706714406/681

ログインして会話に参加

トレンドタグ

リソース

開発者向け

Mastodon とは？

fedibird.com

さらに…