新しいものを表示

ウォーターマークって、透かしのことなので、原義的には「画像に画像以外の情報を目立たない形で埋め込む」ものは全部ウォーターマークと言えると思うんだよな。

だから、AI学習妨害ノイズもウォーターマークの一種なんじゃない?って思ってる。

現行の画像生成AIは、結局は学習したものしか再現できない、というのは、この辺の話も含んでる。
この辺の話が全部解決した時点で、初めて、「生成AIがまだこの世に現存していない新たな表現を生んだ」と言えると思うんだよね。

リアル人体構造をどのようにイラストに落とし込むか、なんてのは、人体イラストにおける表現の本質部分だけど、今の画像生成AIだと、本質部分が既存表現の焼き直しでしかないので。

スレッドを表示

人体構造は3Dモデルを2D絵に出力した素体を、ControlNetの参照絵とするという手法が取れるので、3Dモデルのボーンを学習した別のAIと3D描画プログラムをStable Diffusionと組み合わせることで、正確な人体構造を再現する、自動画像生成システムは可能ではある。

とはいえ、ここまでやっても「人体イラスト」にはならないんよね。3Dモデルの2次元投影と2Dイラストはいうて別物なので。イラストならではのデフォルメ、強調、省略、嘘、その他は、3Dベースだと実現不可能。

SDも実写マージモデルというのは改造学的正確さを改善する効果はあるけど、あれで「人体イラスト」は描画できないわけでね。結局、モデルが人間が描いた人間のイラストを学習するしかないし、モデルで再現できるのは、モデルが学習したタイプのイラストだけ。

スレッドを表示

Stable Diffusionで手足や胴の長さ、顔の大きさとかの人体バランスを正確にするには、どういうアプローチが考えられるかな。ControlNetで解決はするけど、人体構造を参照絵で指示するのは、モデルが描画したとは言い難い。

人体構造の正確さは、全体的な構造と局所的な構造の両方を正確に再現して、初めて得られるはず。

となるとモデル単体でやるなら、人体のすべてのポーズ、すべての角度を絵で学習させ、すべてに異なったプロンプトを割り付けないと、完全な正確性は得られないのだろうな。あと複数人の場合だと、さらにその組み合わせも網羅しないといけない。まあそんなことは不可能だけど。

Stable Diffusionは、プロンプトに自然言語を与えられるので、あたかも「自然言語を用いて絵を描画している」っぽく感じさせることが、創作感を醸し出してて、なんだかなぁと常々思う。

SDにおけるプロンプトとは、学習させた絵に紐付いたキャプション(エンコードされて、画像と共通のエンコード形式になってはいるが)なので、検索エンジンに与えるクエリと大差無いのだがなぁ。

スレッドを表示

さて、じゃあ複雑な指示を与えてAIに生成させたら、それは創作か?という話。

そもそも「単純な指示」というのはwell-definedじゃないし、主観的なものだ。私個人は、Stable Diffusionに与えるプロンプトや、i2iの下絵ラクガキ、inpaintのマスク指定、CNによる構図指定、プロンプトガチャによる厳選などは、全部「単純な指示」だと思ってる。これらはすべて、「作品の構成要素」ではなく、出力を得るためのクエリなので。

この辺りは個人的な見解、感覚の域を出ないし、こんだけ人間による手が入ってたらそれはもう創作だろ、と考える人が少なからず居るのも事実だが、私の考え方でいくと、特に画像生成AIの出力はほとんど全部、創作物とは見做せないんだよね。

なので、生成AIの出力を共有することは表現活動ではないと思っているし、「生成AIの出力を共有、公開することを規制、禁止する」行為は、表現の自由を損なっている、とは感じない。

スレッドを表示

生成AIの出力を共有することは表現活動なのか?

まず、生成AIに単純な指示を与えることで出力する行為は、創作ではない。生成物が既存の著作物でない場合には、著作権が発生しないと解されるというのは文化庁も言っていることなので、このことに議論はないと思う。

で、創作物でないものを共有することが、表現活動と言えるか否か。確かに、「俺はこれが好きなんだ」を伝えるという点では、「表現」かもしれない。でもそれって既存の著作物(転載でも、生成AIを使うのでも)を共有することと、ポン出し生成物を共有することにどれだけの違いがあるだろうかな。既存の著作物そのものを共有することを「表現」だとはあまり言わないだろう。

x.com/Lacenaire_ssw/status/185
実は私もあれを「人権侵害」にカテゴライズするのはいまいちピンと来ない。
著作権問題とR-18コンテンツに対するゾーニングの問題は確実にあるけど、人権侵害なのか?

あれはセックスを娯楽として消費することを目的として、演者が演技を行ったコンテンツではないのか?盗撮とか、本人の意思に反して拡散された動画というわけではないと思うんだが。娯楽作品を娯楽として消費することの何が問題なのか、と。

それとも、なんかパラメータを調整したら良くなっていくのかな。わからん。

スレッドを表示

v-pred版はCN使わずとも、hires fixでstrengthを強め(0.8程度)にかけても、元の形状や色を良く保つことが分かった。
しかし、hires fixしても精細な描画になる感じがしない。それじゃ意味がない。

v-pred版はi2iが不得手なんだろうか?

スレッドを表示

NoobAI-XL ControlNet、専用だからさすがに良く効くなぁ。(このモデル、公式ではない説もある)

NoobAI-XLでもstrength強めにhires fixをかけると画像が崩壊しがちなので、適当なCNをweight=0.9くらいでかけるといい感じ。

今、paruparu v4がたぶん構図の正確さは最強だが、絵柄が強力に固定されてしまうので、好みが分かれる。(私は好みじゃ無い)

そこでまずparuparu v4で低解像度で画像を出し、NoobAI系モデルとCN使ってhires fixかけるのが現時点で一番、NoobAIで高精度の絵を出す方法だと思った。

ただNoobAIはコントラスト、彩度がparuparuなどと比べるとやっぱり低めかもしれない。v-pred版で同じ方法をとればうまくいくのかな。まだv-pred版CNは出てないっぽいので、試せてない。

なんか見かけたのだが…。
AI利用者・開発者の立場からクリエイターに向けて、「そのAI学習妨害法は効果無いよ」とか「こうすればAI学習の妨害が出来るよ」とか「AI学習の妨害はそもそも不可能なんですよ」とか言うのは、全然ズレてんのよな。

クリエイターにとってはAI学習妨害が最終目的ではなくて、自分の作品をAIに学習させることをやめさせたいのだが、それを禁じる法律がなく、AI利用者・開発者がやめてくれないので、次善の策としてAI学習妨害法を模索しているわけ。

なのでAI利用者・開発者から、もし言えることがあるのなら、「これからは貴方の作品はAIに学習させないし、貴方の作品を学習した可能性があるAIは使いません」しかない。でもAI利用者・開発者はそれを言うとAIが使えなくなるので言えない。だったら黙ってる方がまだマシだと思うね。

kobe-np.co.jp/news/society/202
民度…と思ったが、そういえば都知事選挙で合法的にポスターで遊んでた候補が立候補してるんだった。そうもなるわな、という気がしてきた。こうやってモラルは破壊されていくんやなぁ。

reforgeをセットアップしてNoobAI V-Pred 0.5を試してみたけど、Epsilonバージョンより良いという感じは別にしなかった。コントラストもあまり変わった感じがしない。というか出力が不安定な気がする。IterCompマージ版も良く効果が分からなかった。

キーキャップを取ってスイッチ連打してたらゴミが出てきた。ゴミを取ったら治った。スイッチの中にゴミが入り込むこともあるんだなあ。まあそりゃあるか。治って良かった。

スレッドを表示

現行モデルだと日本語108キー配列のUSB接続モデルは静音赤軸だけで赤軸がないなぁ。
BT対応モデルはあるけど要らない…

スレッドを表示

filcoのmajestouchの赤軸を長年使ってるんだが、escキーの押下が固くなってきた。ホットスワップ対応じゃないんでキースイッチの交換はハンダ付けが必要で私には無理。買い換えてもいいか。

どのみち、Wikipediaを含むネット情報を利用する側からすれば、内容の真偽判定は必須なので、AI汚染が進行することは、真偽判定の手間が増えるだけではある。AIによって生産性を落とされる「だけ」で済む。

スレッドを表示

生成AIの出力を共有、公開する場合には、すべて生成者本人による妥当性評価が必要だ、というのは大前提だと思うのだが、まあ遵守されてないんだろうね。WikipediaやブログがAI記事で汚染されるのも、要はそういうことだろう。

しかし、コピペとか、ソース不明の内容を事実として書くことはダメだという共通認識はあるのに、生成AI出力に関してはこの認識の対象外になるのは不思議だよね。やっぱ生成AIには、「基本的に正しい」という、一種の信仰があるんだと思う。

スレッドを表示

生成AI出力に正しさなんてものは無いのに、もっともらしい内容だからきっと正しいだろう、という推測が働いてしまうのが本当に良くないよね。

そんな生成AI出力をそのまま公開、共有できてしまう現状は良くない。とはいえ、防ぐ方法も思いつかない。特にLLMの場合は、文章に透かしなどを入れるのが不可能だしな。

logitsを弄って出力文字列に特定のパターンを埋め込むことで電子透かしにする手法が考案されているが、手動(プログラムでもいい)で適当に書き換えたら回避できるので、こんなのが透かしになるわけないですね。AIが出力した文字列そのものじゃなくて、真偽不明の「内容」の共有が問題なんだから。

スレッドを表示
古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。