Stable Diffusionで手足や胴の長さ、顔の大きさとかの人体バランスを正確にするには、どういうアプローチが考えられるかな。ControlNetで解決はするけど、人体構造を参照絵で指示するのは、モデルが描画したとは言い難い。
人体構造の正確さは、全体的な構造と局所的な構造の両方を正確に再現して、初めて得られるはず。
となるとモデル単体でやるなら、人体のすべてのポーズ、すべての角度を絵で学習させ、すべてに異なったプロンプトを割り付けないと、完全な正確性は得られないのだろうな。あと複数人の場合だと、さらにその組み合わせも網羅しないといけない。まあそんなことは不可能だけど。
人体構造は3Dモデルを2D絵に出力した素体を、ControlNetの参照絵とするという手法が取れるので、3Dモデルのボーンを学習した別のAIと3D描画プログラムをStable Diffusionと組み合わせることで、正確な人体構造を再現する、自動画像生成システムは可能ではある。
とはいえ、ここまでやっても「人体イラスト」にはならないんよね。3Dモデルの2次元投影と2Dイラストはいうて別物なので。イラストならではのデフォルメ、強調、省略、嘘、その他は、3Dベースだと実現不可能。
SDも実写マージモデルというのは改造学的正確さを改善する効果はあるけど、あれで「人体イラスト」は描画できないわけでね。結局、モデルが人間が描いた人間のイラストを学習するしかないし、モデルで再現できるのは、モデルが学習したタイプのイラストだけ。
現行の画像生成AIは、結局は学習したものしか再現できない、というのは、この辺の話も含んでる。この辺の話が全部解決した時点で、初めて、「生成AIがまだこの世に現存していない新たな表現を生んだ」と言えると思うんだよね。
リアル人体構造をどのようにイラストに落とし込むか、なんてのは、人体イラストにおける表現の本質部分だけど、今の画像生成AIだと、本質部分が既存表現の焼き直しでしかないので。
様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。