https://www.reddit.com/r/LocalLLaMA/comments/1ekr7ji/fluxs_architecture_diagram_dont_think_theres_a/
ググって見つけたFluxのアーキテクチャ図。なんだこれ。と思ったけどテキストエンコーダーがCLIPとT5 Encoderの2系統あって、このうちT5 Encoderでもself attentionしてるところがオリジナルのDiTと比較すると複雑さを増す主因になってるのかな。
なんで各ブロックをこう繋ぐと精度高い絵が出るのかは全く分からんけど、そう繋いだらうまくいくというなら、受け入れるしかあるまい。
SoraとかFlux.1とかSD3で使われてる、Diffusion Transformer(DiT)をよく知らなかったから、ざっくり勉強していた。
まだざっくりした理解だけど、latentをシーケンスに変形したものと、プロンプトと時間情報を条件として共にtransformerブロックに入力し、予測ノイズを出力する、みたいな感じかな。
なんかLatent Diffusion Modelに比べてずいぶんシンプルな構造だなあ、というのが第一印象。LDMではU-Net構造を用いて、画像の全体構造から細部構造にかけて順番に処理していくところが、ちょっと人間のお絵描きプロセスを模倣してる部分があったようにも思ったが、DiTではノイズをtransformerに入れて、除去すべきノイズを直接推論するというのは、LLMみたいだし、力技というかそれでいけるんや…という感想。
クリエイターが持つ画像生成AIへの忌避感って、「自分の絵が利用されて、機械的に新たな絵を生成されること」にあるのだけど、AI推進派は、どうしてもこの気持ちを汲み取らないね。
「自分の書いたコードが機械学習されて、新たなコードとして出力されることは別にイヤではない」のは分かるんだが、そこから、「絵師もそうあるべき」は導けないという話なんだがなー。
https://x.com/webbigdata/status/1856969480649543868
>gguf変換時に固定されてしまうようなので、世の中に出回っているほとんどのgguf版は実は32K固定版です
あれ、convert_hf_to_gguf.pyを使えばconfig.jsonを読んで、contextサイズも反映してくれるのでは?と思ったが、そっか普通の人はgguf自炊しないわな。
https://x.com/1230yuji/status/1856896957526282637
料金についてはともかく、想定用途はコンテンツ制作なんだな。チャットなど、リアルタイムttsは想定されてないのかもしれない。
文字数でいうと分かりにくいけど、漢字かな交じり文の文字数を5で割ると、だいたいその文章を読み上げる秒数になる(私調べ)ことを利用すると、無料の5000文字/月は、1ヶ月20分ほどになるので、まあリアルタイム用途にはとても使えないだろうな。
次に、XはXにポストされた画像データを学習して「イラスト専用モデル」とか、「ある特定作者の画風を再現するイラスト専用モデル」とかは作らないだろうけども、「イラストも出力可能な汎用画像モデル」(つまり、基盤モデル)を作る可能性は十分ある、という視点が抜けてる。
その学習においては、絵師アカウントの画像は学習される。というより、意図的に除外しない限りは、分け隔て無くすべての画像が学習されると考えた方がいいと思う。大規模学習ってそういうもんだし。
AI学習に対して反発している絵師は、自分の画風の絵が出力されるモデルが作られることを嫌がってるだけではない。自分の画風とは異なる絵であっても、「自分の絵がAIモデル学習に使われて、そのAIを用いた絵が生成されること」を嫌がってる。
(AI推進派ほど、なぜ絵師がこのことを嫌がってるのか理解してなさそうなのが厳しい)
https://x.com/solla_ga/status/1856687100374216978
https://x.com/solla_ga/status/1856688715923616161
https://x.com/solla_ga/status/1856690251223445556
この方の画像生成AIに対する認識、大分甘めな気がした。
Xがわざわざイラスト専用モデルを作ったりはしないだろう、という前提は正しいと思うが、わざわざ作らないだけで、作ろうと思えば作れるだろう。
まず、こういう二次元イラストのアノテーション、今はもう基本的にAIがやってますよね。1boy,hat,black hair,black eyes,holding cup,simple backgroundみたいなのは秒で出力できる。そこに、アカウント名と(存在するなら)キャラ名をアノテーションに手動で追加したら、もう立派なデータセットになる。「描いた本人だけがラベリングできる」ということはない。誰でも、AIでもできる。
何千枚もの色んな角度の画像を、一つのアカウントによる画像データで賄う必要も全くなく、すべてのアカウントのすべてのイラスト、というかXの外にあるデータをも学習対象にして、「絵の角度」という概念をモデルが学習すれば良い。
なので、1アカウントから数十枚程度の画像を学習すれば、十分にその画風やキャラを再現できる。そういう画像AI、既にあるじゃないですか…。
https://x.com/abubu_newnanka/status/1856759688022643068
https://x.com/abubu_newnanka/status/1856762149055730077
NovelAI DiffusionとかIllustriousとかの二次元イラストAIモデルが、版権キャラを精度良く描画できるのは、版権キャラ画像をたくさん学習したからではあるが、その学習画像の出所は、danbooruに転載されたイラスト、つまりほぼ二次創作だ。
原典のみだと学習データが不足して、キャラの特徴量を抽出することは出来ずに、過学習に陥るだけだろうし。
つまり、もし誰も二次創作作品をネットに上げなければ、版権キャラを精度良く描画できるこういったAIモデルは存在し得なかった。
となると…「ネットに上げた時点で学習される恐れあるから権利者に迷惑かけないように二次創作やめよう^^」は結構、正しい態度であるように思える。
こんなこと言ってたけど、どうもLineスタンプ経由で本垢バレたらしいね…。(意外と脇が甘いな…)
まあ漫画家なのは想像付いてたけど、この後どうなるかね。
これとは別件かもしれないが、中の人が漫画ではない文字ツイートしてたし、そろそろ体制を変えるつもりなのかも。インプレは順調だったから、現行体制でまだいけると思ったけどなー
QT: https://fedibird.com/@mutaguchi/113276987678535476 [参照]