https://blog.novelai.net/novelai-anime-diffusion-v4-curated-previewのご紹介-2549111172ae?gi=461ae3ae67c9
NAI v4のpreviewが出ていた。
確かに、自然言語やタグ指定がよく効く印象はあるし、キャラの描き分け性能はレベチであるが、その分、品質がイマイチに思う。SMEAが使えないのでsamplerの問題?今後改善するのかなぁ。
あと#付きタグがよくわからんな。source,target,mutualのあとに#任意のdanbooruタグ でいいのかな。具体的にどういうタグに有効なんだろ。source,targetと言われても…なタグしか思いつかない。
5chスレ見てたんだけど、今のcuratedモデルはNSFW絵の出力を禁止してるというより、NSFW絵の学習自体してないから、純粋に学習データ不足のため、artistタグが効かないし、品質も高くないという考察があった。それならば、かなり納得できる。
このモデルが一番ヤバいのは、(主張が本当ならば)フルスクラッチモデルである点じゃない?
v3までの傾向からすれば、v4でもアニメ系イラストモデルを1000万枚オーダーで学習させているのは間違いないだろうけど、それ以外の絵をどれだけ学習させたのかが非常に気になるね。
これまでのStable Diffusionベースのモデルでは50億だかの画像を学習した基盤モデルありきだったが、NAIがv4開発にあたり、その規模の学習をしたとはちょっと考えにくい。となれば、基盤モデルは、もっと少数の画像学習で十分作れてしまう、ということなのか、下手すりゃ基盤モデルすら不要で、アニメ系イラストだけ学習すればOKなのかもしれない。
curatedとfullの関係、NAI v1のときと全く同じっぽいな。先にSFW絵だけで学習させたcuratedモデルを作り、NSFW絵を追加学習させてfullモデルを作るやり方。
SFW絵を出したい場合でも、fullモデルの方が純粋に学習量が上な分、品質も上なので、curatedモデルの使い道はあんまり無い、というのも同じじゃないかな。