Stable Diffusionで手足や胴の長さ、顔の大きさとかの人体バランスを正確にするには、どういうアプローチが考えられるかな。ControlNetで解決はするけど、人体構造を参照絵で指示するのは、モデルが描画したとは言い難い。
人体構造の正確さは、全体的な構造と局所的な構造の両方を正確に再現して、初めて得られるはず。
となるとモデル単体でやるなら、人体のすべてのポーズ、すべての角度を絵で学習させ、すべてに異なったプロンプトを割り付けないと、完全な正確性は得られないのだろうな。あと複数人の場合だと、さらにその組み合わせも網羅しないといけない。まあそんなことは不可能だけど。
人体構造は3Dモデルを2D絵に出力した素体を、ControlNetの参照絵とするという手法が取れるので、3Dモデルのボーンを学習した別のAIと3D描画プログラムをStable Diffusionと組み合わせることで、正確な人体構造を再現する、自動画像生成システムは可能ではある。
とはいえ、ここまでやっても「人体イラスト」にはならないんよね。3Dモデルの2次元投影と2Dイラストはいうて別物なので。イラストならではのデフォルメ、強調、省略、嘘、その他は、3Dベースだと実現不可能。
SDも実写マージモデルというのは改造学的正確さを改善する効果はあるけど、あれで「人体イラスト」は描画できないわけでね。結局、モデルが人間が描いた人間のイラストを学習するしかないし、モデルで再現できるのは、モデルが学習したタイプのイラストだけ。