blog.novelai.net/novelai-anime
NAI v4のpreviewが出ていた。
確かに、自然言語やタグ指定がよく効く印象はあるし、キャラの描き分け性能はレベチであるが、その分、品質がイマイチに思う。SMEAが使えないのでsamplerの問題?今後改善するのかなぁ。

あと。source,target,mutualのあとに でいいのかな。具体的にどういうタグに有効なんだろ。source,targetと言われても…なタグしか思いつかない。

あと、danbooruのartist(作者)タグは効かないぽい?character(キャラ)とcopyright(作品)タグは依然として効くが、ついに画風指定は禁止ですかね。

artist:ainiwafflesとやれば、特定画風を指定できるみたいだけど、つまりはartist:で指定できる画風の学習をオプトインで行った感じ?

まあ世の趨勢から言って妥当か。とはいえ、画風が限定されるのは全く面白みがないな。画風キメラもこれじゃできそうにないし。ponyのように画風を匿名化する手もあったと思うんだが。

タグ指定や自然言語がよく効くから何なんだ、という気持ちになってきた。ガチャの手間とか、ControlNetの参照絵の用意が省けるだけじゃないのか。

もうちょっと使い込んだら見えてくるかもしれないが、画風に自由が効かない分、使ってても楽しくないのでモチベが…
あと、今はサブスク入ってないからな。本格的に弄るのは、full版が来てからでいいかも。

5chスレ見てたんだけど、今のcuratedモデルはNSFW絵の出力を禁止してるというより、NSFW絵の学習自体してないから、純粋に学習データ不足のため、artistタグが効かないし、品質も高くないという考察があった。それならば、かなり納得できる。

フォロー

curatedとfullの関係、NAI v1のときと全く同じっぽいな。先にSFW絵だけで学習させたcuratedモデルを作り、NSFW絵を追加学習させてfullモデルを作るやり方。

SFW絵を出したい場合でも、fullモデルの方が純粋に学習量が上な分、品質も上なので、curatedモデルの使い道はあんまり無い、というのも同じじゃないかな。

このモデルが一番ヤバいのは、(主張が本当ならば)フルスクラッチモデルである点じゃない?

v3までの傾向からすれば、v4でもアニメ系イラストモデルを1000万枚オーダーで学習させているのは間違いないだろうけど、それ以外の絵をどれだけ学習させたのかが非常に気になるね。

これまでのStable Diffusionベースのモデルでは50億だかの画像を学習した基盤モデルありきだったが、NAIがv4開発にあたり、その規模の学習をしたとはちょっと考えにくい。となれば、基盤モデルは、もっと少数の画像学習で十分作れてしまう、ということなのか、下手すりゃ基盤モデルすら不要で、アニメ系イラストだけ学習すればOKなのかもしれない。

「アニメ系イラストモデルを作るには、アニメ系イラストだけ学習させれば十分説」は、実は以前からちょっとそんな気はしてたんだよな。実写画像とかの学習は余計なだけなんじゃ、というね。

danbooruタグだけじゃなくて、自然言語でのキャプションの学習も十分に行えば、キャプション付き実写画像でトレーニングする必要性は実はそんなに無いんじゃないか、と。

というのも、NAI v3とかillustriousとかは、SDXLベースモデルと言いつつ、SDXL時代の知識を殆ど忘却してしまっているし、だったら最初から要らない知識だったのでは…という疑いがあった。

仮に、NAI v4が、実写画像の学習を一切行っていない、"ピュア"なイラストモデルだったとしたら。
このモデルは完全に、イラストだけからイラストの特徴を学習したモデルとなる。このモデルで生成した絵には創作性がある、とそれでも言えるだろうかな。自然の風景も、生身の人間も見たことのない奴が「創作」だと?

ちょっと試してたら、artistタグ普通に効いてた。効き方がv3時代よりピーキーで、制御が難しいだけみたい。

NAI v4でキャラ位置を指定するやつ、Regional Prompter的なアプローチで特にモデルに追加学習してないやり方なのか、キャラ表示位置タグみたいなものをちゃんと学習させたのか、どっちだろ。どっちもかな。

キャラの描き分け性能が上がったことと、キャラの位置指定が可能になったことは多分同じ現象なので、重要な要素であるはず。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。