**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 17:32

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 17:32

mutaguchi @mutaguchi@fedibird.com

mutaguchi @mutaguchi@fedibird.com

- 投稿

- フォロー中

- フォロワー

X: https://x.com/mutaguchi

write only

2023年 7月に登録

0 フォロー中 0 フォロワー

投稿投稿と返信メディア

新しいものを表示

+ 2024年11月14日 17:32

mutaguchi @mutaguchi@fedibird.com

https://www.reddit.com/r/LocalLLaMA/comments/1ekr7ji/fluxs_architecture_diagram_dont_think_theres_a/
ググって見つけたFluxのアーキテクチャ図。なんだこれ。と思ったけどテキストエンコーダーがCLIPとT5 Encoderの2系統あって、このうちT5 Encoderでもself attentionしてるところがオリジナルのDiTと比較すると複雑さを増す主因になってるのかな。

なんで各ブロックをこう繋ぐと精度高い絵が出るのかは全く分からんけど、そう繋いだらうまくいくというなら、受け入れるしかあるまい。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 17:19

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 17:19

+ 2024年11月14日 17:19

mutaguchi @mutaguchi@fedibird.com

これはDiTの原理の部分だから、各実装はもうちょっと複雑なんだろうとは思うが、まあぼちぼち見ていくか。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 17:17

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 17:17

+ 2024年11月14日 17:17

mutaguchi @mutaguchi@fedibird.com

SoraとかFlux.1とかSD3で使われてる、Diffusion Transformer（DiT）をよく知らなかったから、ざっくり勉強していた。
まだざっくりした理解だけど、latentをシーケンスに変形したものと、プロンプトと時間情報を条件として共にtransformerブロックに入力し、予測ノイズを出力する、みたいな感じかな。

なんかLatent Diffusion Modelに比べてずいぶんシンプルな構造だなあ、というのが第一印象。LDMではU-Net構造を用いて、画像の全体構造から細部構造にかけて順番に処理していくところが、ちょっと人間のお絵描きプロセスを模倣してる部分があったようにも思ったが、DiTではノイズをtransformerに入れて、除去すべきノイズを直接推論するというのは、LLMみたいだし、力技というかそれでいけるんや…という感想。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 15:42

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 15:42

+ 2024年11月14日 15:42

mutaguchi @mutaguchi@fedibird.com

クリエイターたちが、自分の人生を脅かされてる状況に苦しんでるのを見て、テクノフォビアだの陰謀論だの言うのはいくら何でも失礼ですよ。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 15:37

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 15:37

+ 2024年11月14日 15:37

mutaguchi @mutaguchi@fedibird.com

クリエイターが持つ画像生成AIへの忌避感って、「自分の絵が利用されて、機械的に新たな絵を生成されること」にあるのだけど、AI推進派は、どうしてもこの気持ちを汲み取らないね。

「自分の書いたコードが機械学習されて、新たなコードとして出力されることは別にイヤではない」のは分かるんだが、そこから、「絵師もそうあるべき」は導けないという話なんだがなー。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 15:14

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 15:14

+ 2024年11月14日 15:14

mutaguchi @mutaguchi@fedibird.com

ggufはモデルの最大コンテキストサイズで作っておき、使用時に各自がctx-sizeパラメータを指定するのが作法になってるかと思っていたが、そうでもないのか。この作法で特に問題なさそうだけどなあ。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 15:07

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 15:07

+ 2024年11月14日 15:07

mutaguchi @mutaguchi@fedibird.com

https://x.com/webbigdata/status/1856969480649543868
>gguf変換時に固定されてしまうようなので、世の中に出回っているほとんどのgguf版は実は32K固定版です

あれ、convert_hf_to_gguf.pyを使えばconfig.jsonを読んで、contextサイズも反映してくれるのでは？と思ったが、そっか普通の人はgguf自炊しないわな。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 14:23

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 14:23

2024年11月14日 14:23

mutaguchi @mutaguchi@fedibird.com

今度の選挙情勢、ほんと頭痛い。
一切の感情論を抜きにして、自分の為に仕事してくれる首長を、ただただ冷静に選んで欲しいものだ…。

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 08:48

**mutaguchi** @mutaguchi@fedibird.com · 2024年11月14日 08:48

2024年11月14日 08:48

mutaguchi @mutaguchi@fedibird.com

https://x.com/1230yuji/status/1856896957526282637
料金についてはともかく、想定用途はコンテンツ制作なんだな。チャットなど、リアルタイムttsは想定されてないのかもしれない。

文字数でいうと分かりにくいけど、漢字かな交じり文の文字数を5で割ると、だいたいその文章を読み上げる秒数になる（私調べ）ことを利用すると、無料の5000文字/月は、1ヶ月20分ほどになるので、まあリアルタイム用途にはとても使えないだろうな。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 07:29

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 07:29

+ 2024年11月14日 07:29

mutaguchi @mutaguchi@fedibird.com

そういやふと思い出したんだが、AI Picassoが出してるEmi 2というモデルが、SDXLという基盤モデルに対し、Twitterやpixivに上げられたイラストデータにdanbooru互換のアノテーションを（多分taggerというAIを使って）付けて、「追加学習において（danbooruなどの）無断転載画像を学習してません」とクリーンさを謳って商用利用可のライセンスでモデルを無償配布したという事象があったな。

このことからも、Xにポストされたイラストデータを学習させたイラストモデルを作ることは技術的には可能なのが明らかだと思うんだがな。忘れられてるのかもしれん。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 06:57

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 06:57

+ 2024年11月14日 06:57

mutaguchi @mutaguchi@fedibird.com

次に、XはXにポストされた画像データを学習して「イラスト専用モデル」とか、「ある特定作者の画風を再現するイラスト専用モデル」とかは作らないだろうけども、「イラストも出力可能な汎用画像モデル」（つまり、基盤モデル）を作る可能性は十分ある、という視点が抜けてる。

その学習においては、絵師アカウントの画像は学習される。というより、意図的に除外しない限りは、分け隔て無くすべての画像が学習されると考えた方がいいと思う。大規模学習ってそういうもんだし。

AI学習に対して反発している絵師は、自分の画風の絵が出力されるモデルが作られることを嫌がってるだけではない。自分の画風とは異なる絵であっても、「自分の絵がAIモデル学習に使われて、そのAIを用いた絵が生成されること」を嫌がってる。
（AI推進派ほど、なぜ絵師がこのことを嫌がってるのか理解してなさそうなのが厳しい）

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 06:43

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月14日 06:43

+ 2024年11月14日 06:43

mutaguchi @mutaguchi@fedibird.com

https://x.com/solla_ga/status/1856687100374216978
https://x.com/solla_ga/status/1856688715923616161
https://x.com/solla_ga/status/1856690251223445556
この方の画像生成AIに対する認識、大分甘めな気がした。
Xがわざわざイラスト専用モデルを作ったりはしないだろう、という前提は正しいと思うが、わざわざ作らないだけで、作ろうと思えば作れるだろう。

まず、こういう二次元イラストのアノテーション、今はもう基本的にAIがやってますよね。1boy,hat,black hair,black eyes,holding cup,simple backgroundみたいなのは秒で出力できる。そこに、アカウント名と（存在するなら）キャラ名をアノテーションに手動で追加したら、もう立派なデータセットになる。「描いた本人だけがラベリングできる」ということはない。誰でも、AIでもできる。

何千枚もの色んな角度の画像を、一つのアカウントによる画像データで賄う必要も全くなく、すべてのアカウントのすべてのイラスト、というかXの外にあるデータをも学習対象にして、「絵の角度」という概念をモデルが学習すれば良い。

なので、1アカウントから数十枚程度の画像を学習すれば、十分にその画風やキャラを再現できる。そういう画像AI、既にあるじゃないですか…。

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 18:38

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 18:38

+ 2024年11月13日 18:38

mutaguchi @mutaguchi@fedibird.com

二次創作者は、自分の意思に反して、AIに「版権キャラの描き方」を教えてしまっているわけなんだなぁ。なんか救われない話だ。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 18:31

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 18:31

+ 2024年11月13日 18:31

mutaguchi @mutaguchi@fedibird.com

二次創作をAIモデルが学習することにより、「AIに自分のキャラを学習され、自分のキャラをAI生成されたくない」と考える原典の権利者に迷惑がかかる可能性、あんまり考えたことなかったかもしれない。

でも確かに二次創作をネットに公開さえしなければ、迷惑をかけることは回避できるなあ…。

スレッドを表示

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 18:23

**mutaguchi** @mutaguchi@fedibird.com · + 2024年11月13日 18:23

+ 2024年11月13日 18:23

mutaguchi @mutaguchi@fedibird.com

https://x.com/abubu_newnanka/status/1856759688022643068
https://x.com/abubu_newnanka/status/1856762149055730077
NovelAI DiffusionとかIllustriousとかの二次元イラストAIモデルが、版権キャラを精度良く描画できるのは、版権キャラ画像をたくさん学習したからではあるが、その学習画像の出所は、danbooruに転載されたイラスト、つまりほぼ二次創作だ。

原典のみだと学習データが不足して、キャラの特徴量を抽出することは出来ずに、過学習に陥るだけだろうし。

つまり、もし誰も二次創作作品をネットに上げなければ、版権キャラを精度良く描画できるこういったAIモデルは存在し得なかった。

となると…「ネットに上げた時点で学習される恐れあるから権利者に迷惑かけないように二次創作やめよう＾＾」は結構、正しい態度であるように思える。