mutaguchi: "curatedとfullの関係、NAI v1のときと全く同じっぽいな。先にSFW絵だけで学習させた…" - Fedibird

2024年12月21日 06:14

mutaguchi @mutaguchi@fedibird.com

https://blog.novelai.net/novelai-anime-diffusion-v4-curated-previewのご紹介-2549111172ae?gi=461ae3ae67c9
NAI v4のpreviewが出ていた。
確かに、自然言語やタグ指定がよく効く印象はあるし、キャラの描き分け性能はレベチであるが、その分、品質がイマイチに思う。SMEAが使えないのでsamplerの問題？今後改善するのかなぁ。

あと#付きタグがよくわからんな。source,target,mutualのあとに#任意のdanbooruタグでいいのかな。具体的にどういうタグに有効なんだろ。source,targetと言われても…なタグしか思いつかない。

2024年12月21日 06:22

mutaguchi @mutaguchi@fedibird.com

あと、danbooruのartist（作者）タグは効かないぽい？character（キャラ）とcopyright（作品）タグは依然として効くが、ついに画風指定は禁止ですかね。

artist:ainiwafflesとやれば、特定画風を指定できるみたいだけど、つまりはartist:で指定できる画風の学習をオプトインで行った感じ？

まあ世の趨勢から言って妥当か。とはいえ、画風が限定されるのは全く面白みがないな。画風キメラもこれじゃできそうにないし。ponyのように画風を匿名化する手もあったと思うんだが。

2024年12月21日 06:30

mutaguchi @mutaguchi@fedibird.com

タグ指定や自然言語がよく効くから何なんだ、という気持ちになってきた。ガチャの手間とか、ControlNetの参照絵の用意が省けるだけじゃないのか。

2024年12月21日 06:34

mutaguchi @mutaguchi@fedibird.com

もうちょっと使い込んだら見えてくるかもしれないが、画風に自由が効かない分、使ってても楽しくないのでモチベが…
あと、今はサブスク入ってないからな。本格的に弄るのは、full版が来てからでいいかも。

2024年12月21日 06:45

mutaguchi @mutaguchi@fedibird.com

5chスレ見てたんだけど、今のcuratedモデルはNSFW絵の出力を禁止してるというより、NSFW絵の学習自体してないから、純粋に学習データ不足のため、artistタグが効かないし、品質も高くないという考察があった。それならば、かなり納得できる。

mutaguchi @mutaguchi@fedibird.com

curatedとfullの関係、NAI v1のときと全く同じっぽいな。先にSFW絵だけで学習させたcuratedモデルを作り、NSFW絵を追加学習させてfullモデルを作るやり方。

SFW絵を出したい場合でも、fullモデルの方が純粋に学習量が上な分、品質も上なので、curatedモデルの使い道はあんまり無い、というのも同じじゃないかな。

2024年12月21日 06:50 · · Web · · ·

2024年12月21日 07:09

mutaguchi @mutaguchi@fedibird.com

このモデルが一番ヤバいのは、（主張が本当ならば）フルスクラッチモデルである点じゃない？

v3までの傾向からすれば、v4でもアニメ系イラストモデルを1000万枚オーダーで学習させているのは間違いないだろうけど、それ以外の絵をどれだけ学習させたのかが非常に気になるね。

これまでのStable Diffusionベースのモデルでは50億だかの画像を学習した基盤モデルありきだったが、NAIがv4開発にあたり、その規模の学習をしたとはちょっと考えにくい。となれば、基盤モデルは、もっと少数の画像学習で十分作れてしまう、ということなのか、下手すりゃ基盤モデルすら不要で、アニメ系イラストだけ学習すればOKなのかもしれない。

2024年12月21日 07:15

mutaguchi @mutaguchi@fedibird.com

「アニメ系イラストモデルを作るには、アニメ系イラストだけ学習させれば十分説」は、実は以前からちょっとそんな気はしてたんだよな。実写画像とかの学習は余計なだけなんじゃ、というね。

danbooruタグだけじゃなくて、自然言語でのキャプションの学習も十分に行えば、キャプション付き実写画像でトレーニングする必要性は実はそんなに無いんじゃないか、と。

2024年12月21日 07:19

mutaguchi @mutaguchi@fedibird.com

というのも、NAI v3とかillustriousとかは、SDXLベースモデルと言いつつ、SDXL時代の知識を殆ど忘却してしまっているし、だったら最初から要らない知識だったのでは…という疑いがあった。

2024年12月21日 07:27

mutaguchi @mutaguchi@fedibird.com

仮に、NAI v4が、実写画像の学習を一切行っていない、"ピュア"なイラストモデルだったとしたら。
このモデルは完全に、イラストだけからイラストの特徴を学習したモデルとなる。このモデルで生成した絵には創作性がある、とそれでも言えるだろうかな。自然の風景も、生身の人間も見たことのない奴が「創作」だと？

2024年12月21日 07:43

mutaguchi @mutaguchi@fedibird.com

ちょっと試してたら、artistタグ普通に効いてた。効き方がv3時代よりピーキーで、制御が難しいだけみたい。

2024年12月21日 09:39

mutaguchi @mutaguchi@fedibird.com

NAI v4でキャラ位置を指定するやつ、Regional Prompter的なアプローチで特にモデルに追加学習してないやり方なのか、キャラ表示位置タグみたいなものをちゃんと学習させたのか、どっちだろ。どっちもかな。

キャラの描き分け性能が上がったことと、キャラの位置指定が可能になったことは多分同じ現象なので、重要な要素であるはず。

ログインして会話に参加