フォロー

画像生成AI・Stable Diffusionのエンコーダーに見つかった致命的な欠陥とは? - GIGAZINE
gigazine.net/news/20240202-sta

VAEブラックホール問題やね
壺でも今日話に上がってたやつや

VAEブラックホール問題
VAEは画像をLatentに変換し、Latentを画像に変換する役割がある訳やが
この時ある領域においてLatentが同じなら、同じ画像になって欲しいというのが処理の一貫性やらの点で良いとされとる

しかしながらCompVisが作ったVAE(SD1.5までで幅広く使われとる)には
Latent内の数ピクセルが画像全体に大きく影響を及ぼすことが分かった
(報告者はこの数ピクセルで画像全体の構図や質感を伝えるようなチートを仕込んだか、偏った学習で獲得してしまったかと予測しとる)
こうなると画像生成時にその数ピクセルをどう組むかがキモになるのに
知らされとらんかった訳やからモデルもサンプラーも何もしとらん
結果的に「数ピクセルで画像変わるのにその対策を盛り込まず、ロクに対策できてないか、その対策に学習時間とモデルの領域を割いたクソが量産された」と批判しとる

「言い過ぎやで別にええんやないの」という反論もあるし、SDXLは新たに原則に従ってVAEを作ったので影響は無いとされる
https://fate.5ch.net/test/read.cgi/liveuranus/1706714406/681

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。