ともかく、SanaはDiTとしての構造がシンプルだし、シンプルなものはだいたい強い法則がある[要出典]ので、きっと高性能なんだろうなあ。(FluxやSD3は複雑すぎてよくわかんないけど、複雑なのは確かだ)

Linear Attentionがどんなものか、まだよく調べてないけど、O(n^2)をO(n)にするには、何らかの近似が行われているはずで、そのことによる性能劣化がどの程度あるかによるな。

スレッドを表示

いや、Latent Diffusion ModelのようなU-Net構造を取らず、latentとconditionを入力してなんらかのAttention処理して、noiseを出力するブロックを直列に繋いだものなら、DiTの定義を満たすのかなぁ。

スレッドを表示

で、個人的にはDiTって何なのか分からなくなってきた。潜在表現をシーケンス化し、プロンプトや時刻情報など条件をそこに追記し、Self AttentionすることがDiTなのかと思ってたが、どうもそうじゃないらしい。

U-Netを使わなければDiT、というわけでもないらしい。
条件のKVとCross AttentionしなければDiT、というわけでもない。(そもそもDiTの論文には、DiT Block with Cross Attentionというのがあって、Sanaもこれに近いように思う)

結局、まだ理解が足りてない。もっとがんばりましょう。

スレッドを表示

nvlabs.github.io/Sana/
Sana、DiTでTransformerにLinear Attention機構を採用することで、計算量O(n^2)をO(n)に落とし込んだこと、VAEの代わりにDeep compression autoencoderという高圧縮率な変換をかけていること、テキストエンコーダーの前段にLLMによるユーザープロンプト強化を行っていることが新しいみたい。構造としてはシンプルに見える。

このスレッドだとChatGPTと同じ解答があった。安心した(?)
stackoverflow.com/questions/18

しかしExcelの列名は結構面白いネタだな。そもそもこれ、bijective numerationという記法で、n進法とは全く違うものらしい。
en.wikipedia.org/wiki/Bijectiv
qiita.com/hibit/items/608b3ffe

スレッドを表示

ChatGPTに聞いたら、もっとエレガントな解法を出してきた…。
前回の商を1引いてから割り算するだけ。
結果は0baseなので1baseにシフトすれば良い。
いや、確かにそれでいいよな。

今までChatGPTバカにしててごめんなさい。もう人間はおしまいです。

スレッドを表示

ちなみに、日本語でググったら、間違ったコードが出てきたw

スレッドを表示

分からんからカンニングした。
要は、10進→26進変換の計算をするとき、26で割った余りが0のときは、商から1引いて、余りを26に変換する。これだけで良かった。言われてみれば。

惜しいところまでは行ってたのだが、沼にはまってしまった。精進が足りませんね。

スレッドを表示

これずっと考えたけど、どうしてもわからん。A~XFDを生成して、そこから行番号を計算したテーブルを事前に作って照合するしか思いつかない。
情けない…

スレッドを表示

x.com/excelspeedup/status/1859
これ最初意味が分からなかったけど、そうか、列名にはゼロが無いんだ。
列名→列番号は、
ABC=1 * 26 ^ 2 + 2 * 26 ^ 1 + 3
みたいに計算できるから26進数ぽく見えるけど、列番号→列名は26進数として計算しようとすると、おかしくなる。

しかし、「金と権力と知名度にあかせて、ホロライブとにじさんじのトップVTuberたちと公式コラボにこぎ着けた、バ美肉VTuber」なんて字面からは炎上要素しかないのに、ここまで大物だと炎上すらしないんやな。

スレッドを表示

YouTubeに1個だけコラボ切り抜きが残ってたがそれ以外はほんとマジでないな。

スレッドを表示

八都宿ねね、今更把握。
公式はおろか、切り抜きの一つすら綺麗に無に帰しているところがガチだな。

x.com/deepseek_ai/status/18592
DeepSeek-R1-Liteというモデルがo1並のCoT能力を得たという主張。まだモデルは公開されてないみたいだし、パラメータとかの情報も見つからなかった。

まあこれで、CoTファインチューニングは効果的なんだなということは分かるし、これからしばらくCoTモデルが流行りそうだな。

AIさんが青画面の原因調査出来るようになる日はくるだろうか。

スレッドを表示

CUDA toolkitはランタイム的なものではなく、SDKなんだよな?
ランタイムはnvidiaドライバそのもの、ということでいいのよね?

つまり、コンパイル済みのpytorchを使う分には、システムにインストールされているCUDA toolkitは特に使われることはない、という理解であっているよな?

これらの前提が正しければ、CUDA121対応のpytorchを使うモデルを長らく使っていて、特に問題はなかったから、システムにtoolkitをインストールしたことは無関係だと思われるのだが。

スレッドを表示

CUDA toolkit 118→121が影響してるとしたら頭痛いけど…

スレッドを表示

LLM推論中に青画面。前回から3日しか経ってないので明確な原因があるはず。とりあえずiGPUを有効化してから発生しだしたので、またオフにしてみる。

以前はChrome利用時に落ちてて、Chrome側でGPU設定を変更し、iGPUをオフったことで改善したので、前者が効いたかと思っていたが、もしかするとiGPUが主因だったのかもしれない。

これで様子見するが、原因が他にある場合は特定困難だな。

Xで、プロモーションとしてAI絵師のAI絵が流れてきた。なかなかすごいことするな。

古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。