https://blog.novelai.net/novelai-anime-diffusion-v4-curated-previewのご紹介-2549111172ae?gi=461ae3ae67c9
NAI v4のpreviewが出ていた。
確かに、自然言語やタグ指定がよく効く印象はあるし、キャラの描き分け性能はレベチであるが、その分、品質がイマイチに思う。SMEAが使えないのでsamplerの問題?今後改善するのかなぁ。
あと#付きタグがよくわからんな。source,target,mutualのあとに#任意のdanbooruタグ でいいのかな。具体的にどういうタグに有効なんだろ。source,targetと言われても…なタグしか思いつかない。
このモデルが一番ヤバいのは、(主張が本当ならば)フルスクラッチモデルである点じゃない?
v3までの傾向からすれば、v4でもアニメ系イラストモデルを1000万枚オーダーで学習させているのは間違いないだろうけど、それ以外の絵をどれだけ学習させたのかが非常に気になるね。
これまでのStable Diffusionベースのモデルでは50億だかの画像を学習した基盤モデルありきだったが、NAIがv4開発にあたり、その規模の学習をしたとはちょっと考えにくい。となれば、基盤モデルは、もっと少数の画像学習で十分作れてしまう、ということなのか、下手すりゃ基盤モデルすら不要で、アニメ系イラストだけ学習すればOKなのかもしれない。
NAI v4でキャラ位置を指定するやつ、Regional Prompter的なアプローチで特にモデルに追加学習してないやり方なのか、キャラ表示位置タグみたいなものをちゃんと学習させたのか、どっちだろ。どっちもかな。
キャラの描き分け性能が上がったことと、キャラの位置指定が可能になったことは多分同じ現象なので、重要な要素であるはず。