https://blog.novelai.net/novelai-anime-diffusion-v4-curated-previewのご紹介-2549111172ae?gi=461ae3ae67c9
NAI v4のpreviewが出ていた。
確かに、自然言語やタグ指定がよく効く印象はあるし、キャラの描き分け性能はレベチであるが、その分、品質がイマイチに思う。SMEAが使えないのでsamplerの問題?今後改善するのかなぁ。
あと#付きタグがよくわからんな。source,target,mutualのあとに#任意のdanbooruタグ でいいのかな。具体的にどういうタグに有効なんだろ。source,targetと言われても…なタグしか思いつかない。
このモデルが一番ヤバいのは、(主張が本当ならば)フルスクラッチモデルである点じゃない?
v3までの傾向からすれば、v4でもアニメ系イラストモデルを1000万枚オーダーで学習させているのは間違いないだろうけど、それ以外の絵をどれだけ学習させたのかが非常に気になるね。
これまでのStable Diffusionベースのモデルでは50億だかの画像を学習した基盤モデルありきだったが、NAIがv4開発にあたり、その規模の学習をしたとはちょっと考えにくい。となれば、基盤モデルは、もっと少数の画像学習で十分作れてしまう、ということなのか、下手すりゃ基盤モデルすら不要で、アニメ系イラストだけ学習すればOKなのかもしれない。
「アニメ系イラストモデルを作るには、アニメ系イラストだけ学習させれば十分説」は、実は以前からちょっとそんな気はしてたんだよな。実写画像とかの学習は余計なだけなんじゃ、というね。
danbooruタグだけじゃなくて、自然言語でのキャプションの学習も十分に行えば、キャプション付き実写画像でトレーニングする必要性は実はそんなに無いんじゃないか、と。