新しいものを表示

reddit.com/r/LocalLLaMA/commen
ググって見つけたFluxのアーキテクチャ図。なんだこれ。と思ったけどテキストエンコーダーがCLIPとT5 Encoderの2系統あって、このうちT5 Encoderでもself attentionしてるところがオリジナルのDiTと比較すると複雑さを増す主因になってるのかな。

なんで各ブロックをこう繋ぐと精度高い絵が出るのかは全く分からんけど、そう繋いだらうまくいくというなら、受け入れるしかあるまい。

スレッドを表示

これはDiTの原理の部分だから、各実装はもうちょっと複雑なんだろうとは思うが、まあぼちぼち見ていくか。

スレッドを表示

SoraとかFlux.1とかSD3で使われてる、Diffusion Transformer(DiT)をよく知らなかったから、ざっくり勉強していた。
まだざっくりした理解だけど、latentをシーケンスに変形したものと、プロンプトと時間情報を条件として共にtransformerブロックに入力し、予測ノイズを出力する、みたいな感じかな。

なんかLatent Diffusion Modelに比べてずいぶんシンプルな構造だなあ、というのが第一印象。LDMではU-Net構造を用いて、画像の全体構造から細部構造にかけて順番に処理していくところが、ちょっと人間のお絵描きプロセスを模倣してる部分があったようにも思ったが、DiTではノイズをtransformerに入れて、除去すべきノイズを直接推論するというのは、LLMみたいだし、力技というかそれでいけるんや…という感想。

クリエイターたちが、自分の人生を脅かされてる状況に苦しんでるのを見て、テクノフォビアだの陰謀論だの言うのはいくら何でも失礼ですよ。

スレッドを表示

クリエイターが持つ画像生成AIへの忌避感って、「自分の絵が利用されて、機械的に新たな絵を生成されること」にあるのだけど、AI推進派は、どうしてもこの気持ちを汲み取らないね。

「自分の書いたコードが機械学習されて、新たなコードとして出力されることは別にイヤではない」のは分かるんだが、そこから、「絵師もそうあるべき」は導けないという話なんだがなー。

ggufはモデルの最大コンテキストサイズで作っておき、使用時に各自がctx-sizeパラメータを指定するのが作法になってるかと思っていたが、そうでもないのか。この作法で特に問題なさそうだけどなあ。

スレッドを表示

x.com/webbigdata/status/185696
>gguf変換時に固定されてしまうようなので、世の中に出回っているほとんどのgguf版は実は32K固定版です

あれ、convert_hf_to_gguf.pyを使えばconfig.jsonを読んで、contextサイズも反映してくれるのでは?と思ったが、そっか普通の人はgguf自炊しないわな。

今度の選挙情勢、ほんと頭痛い。
一切の感情論を抜きにして、自分の為に仕事してくれる首長を、ただただ冷静に選んで欲しいものだ…。

x.com/1230yuji/status/18568969
料金についてはともかく、想定用途はコンテンツ制作なんだな。チャットなど、リアルタイムttsは想定されてないのかもしれない。

文字数でいうと分かりにくいけど、漢字かな交じり文の文字数を5で割ると、だいたいその文章を読み上げる秒数になる(私調べ)ことを利用すると、無料の5000文字/月は、1ヶ月20分ほどになるので、まあリアルタイム用途にはとても使えないだろうな。

そういやふと思い出したんだが、AI Picassoが出してるEmi 2というモデルが、SDXLという基盤モデルに対し、Twitterやpixivに上げられたイラストデータにdanbooru互換のアノテーションを(多分taggerというAIを使って)付けて、「追加学習において(danbooruなどの)無断転載画像を学習してません」とクリーンさを謳って商用利用可のライセンスでモデルを無償配布したという事象があったな。

このことからも、Xにポストされたイラストデータを学習させたイラストモデルを作ることは技術的には可能なのが明らかだと思うんだがな。忘れられてるのかもしれん。

スレッドを表示

次に、XはXにポストされた画像データを学習して「イラスト専用モデル」とか、「ある特定作者の画風を再現するイラスト専用モデル」とかは作らないだろうけども、「イラストも出力可能な汎用画像モデル」(つまり、基盤モデル)を作る可能性は十分ある、という視点が抜けてる。

その学習においては、絵師アカウントの画像は学習される。というより、意図的に除外しない限りは、分け隔て無くすべての画像が学習されると考えた方がいいと思う。大規模学習ってそういうもんだし。

AI学習に対して反発している絵師は、自分の画風の絵が出力されるモデルが作られることを嫌がってるだけではない。自分の画風とは異なる絵であっても、「自分の絵がAIモデル学習に使われて、そのAIを用いた絵が生成されること」を嫌がってる。
(AI推進派ほど、なぜ絵師がこのことを嫌がってるのか理解してなさそうなのが厳しい)

スレッドを表示

x.com/solla_ga/status/18566871
x.com/solla_ga/status/18566887
x.com/solla_ga/status/18566902
この方の画像生成AIに対する認識、大分甘めな気がした。
Xがわざわざイラスト専用モデルを作ったりはしないだろう、という前提は正しいと思うが、わざわざ作らないだけで、作ろうと思えば作れるだろう。

まず、こういう二次元イラストのアノテーション、今はもう基本的にAIがやってますよね。1boy,hat,black hair,black eyes,holding cup,simple backgroundみたいなのは秒で出力できる。そこに、アカウント名と(存在するなら)キャラ名をアノテーションに手動で追加したら、もう立派なデータセットになる。「描いた本人だけがラベリングできる」ということはない。誰でも、AIでもできる。

何千枚もの色んな角度の画像を、一つのアカウントによる画像データで賄う必要も全くなく、すべてのアカウントのすべてのイラスト、というかXの外にあるデータをも学習対象にして、「絵の角度」という概念をモデルが学習すれば良い。

なので、1アカウントから数十枚程度の画像を学習すれば、十分にその画風やキャラを再現できる。そういう画像AI、既にあるじゃないですか…。

二次創作者は、自分の意思に反して、AIに「版権キャラの描き方」を教えてしまっているわけなんだなぁ。なんか救われない話だ。

スレッドを表示

二次創作をAIモデルが学習することにより、「AIに自分のキャラを学習され、自分のキャラをAI生成されたくない」と考える原典の権利者に迷惑がかかる可能性、あんまり考えたことなかったかもしれない。

でも確かに二次創作をネットに公開さえしなければ、迷惑をかけることは回避できるなあ…。

スレッドを表示

x.com/abubu_newnanka/status/18
x.com/abubu_newnanka/status/18
NovelAI DiffusionとかIllustriousとかの二次元イラストAIモデルが、版権キャラを精度良く描画できるのは、版権キャラ画像をたくさん学習したからではあるが、その学習画像の出所は、danbooruに転載されたイラスト、つまりほぼ二次創作だ。

原典のみだと学習データが不足して、キャラの特徴量を抽出することは出来ずに、過学習に陥るだけだろうし。

つまり、もし誰も二次創作作品をネットに上げなければ、版権キャラを精度良く描画できるこういったAIモデルは存在し得なかった。

となると…「ネットに上げた時点で学習される恐れあるから権利者に迷惑かけないように二次創作やめよう^^」は結構、正しい態度であるように思える。

イタコ漫画、というか、漫画家に自分の画風以外の画風で漫画を描く能力がある、ということに思いを馳せられる人は、それ程多くないということかもしれない。

スレッドを表示

あとX見てたら、botには複数の作者が居て、そのうちの一人がその人だよ説がそれなりに根強くて、これは作者氏の勝利(勝利?)だな。

スレッドを表示

Lineスタンプは作者IDが振られるので、既存のスタンプを削除したあと名義を変えて、新しいスタンプを販売したところで、紐付け可能だよなぁ。Xでポスト削除してスクリーンネーム変えても追従できるのと一緒で。この仕様を知らなかった(想像しなかった)のか、分かった上で、ネタバレの意味で敢えてなのか。

スレッドを表示

検索したら、結構初期からbotの正体を当ててる人がいた。まあ本垢の方の漫画の読者にとっては容易いことか。

スレッドを表示

こんなこと言ってたけど、どうもLineスタンプ経由で本垢バレたらしいね…。(意外と脇が甘いな…)
まあ漫画家なのは想像付いてたけど、この後どうなるかね。

これとは別件かもしれないが、中の人が漫画ではない文字ツイートしてたし、そろそろ体制を変えるつもりなのかも。インプレは順調だったから、現行体制でまだいけると思ったけどなー
QT: fedibird.com/@mutaguchi/113276
[参照]

mutaguchi  
存在しない漫画の1コマbotはボット名義だからバズるのであって、漫画家アカウントだったら、こうはならんかったやろな。 やってることは同じだとしても、印象が全然違う。存在しない漫画いうて、あなたという漫画家が描いた時点で、存在してますやん、となるのでね。botという曖昧な存在を主体とすることで、...
古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。