https://huggingface.co/tiiuae/Falcon3-10B-Instruct-1.58bit
Falcon3-10B-Instruct-1.58bitというBitNetモデルが賢いらしいと聞いたので、今慌てて評価してるところ。
BitNetの推論アプリはllama.cppの改造版なので、-pに指定した日本語が通らんとか、めんどくささがある。
それとバイナリがCPU版だから遅いなぁ。自分でビルドしなきゃいけないか。軽い評価だけならCPUでもいけるが、10Bモデルだと1.58bit量子化モデルといえ、3GB超えるし、そこそこ遅いんだよね。
https://github.com/ggerganov/llama.cpp/issues/10768
これとは違うやつだが、b4351でもTrojan:Script/Sabsik.FL.A!mlというのが検出される。
萎えたので、すべてを忘れて、何もかもなかったことにしよう…
https://huggingface.co/tiiuae/Falcon3-10B-Instruct-1.58bit
さて、改めてFalcon3-10B-Instruct-1.58bit(BitNet)のモデルカードを読んでたんだが、量子化には例のHFブログで上がってた方法(フルスクラッチ学習じゃなくてファインチューニング)を使ってるみたいだった。これね。
https://huggingface.co/blog/1_58_llm_extreme_quantization
この方法、llama3 8Bモデルで実験されたものが、既に公開されてるんだけど、性能は全然だった。BitNet、少なくとも既存モデルのファインチューニングではダメなのは確実だと思う。
Microsoftはいい加減に、フルスクラッチでちゃんと性能出てるBitNetモデルを公開すべき。
ここまでやったんだし、結局b4350をダウンロードして試した。
BitNet版と同じ、「あなたは優れた日本人アシスタントです。」というシステムプロンプトでFalcon3-10B-Instruct-q4_k_m.ggufを実行した結果はこう。まあ、そういうことだな…。
確かにFalcon3は日本語は得意ではない感じではあるが、それでもBitNet版との出力とは比較にならないね。