とりあえずシステムプロンプト「あなたは優れた日本人アシスタントです。」した限りでは、日本語の意味の通る文章が辛うじて出力できるかな、レベルだった。
ただ、このFalcon3-10B-Instruct、4bit量子化とかではどんな性能かはまだ見てないから、まだBitNetによる性能劣化レベルについてはなんとも言えない。
https://github.com/ggerganov/llama.cpp/issues/10768
これとは違うやつだが、b4351でもTrojan:Script/Sabsik.FL.A!mlというのが検出される。
https://github.com/ggerganov/llama.cpp/pull/10876
llama.cppのfalcon3サポート、バグがあったらしくて、差し戻されとる…なんてことだ。
https://huggingface.co/tiiuae/Falcon3-10B-Instruct-1.58bit
さて、改めてFalcon3-10B-Instruct-1.58bit(BitNet)のモデルカードを読んでたんだが、量子化には例のHFブログで上がってた方法(フルスクラッチ学習じゃなくてファインチューニング)を使ってるみたいだった。これね。
https://huggingface.co/blog/1_58_llm_extreme_quantization
この方法、llama3 8Bモデルで実験されたものが、既に公開されてるんだけど、性能は全然だった。BitNet、少なくとも既存モデルのファインチューニングではダメなのは確実だと思う。
Microsoftはいい加減に、フルスクラッチでちゃんと性能出てるBitNetモデルを公開すべき。
Falcon3-10B-Instruct-1.58bitはこんな感じ。まあ、想像通り、使い物になるレベルではない。
今、4bit量子化モデルを落としてきてるので、それも試してからBitNetの最終評価をしようと思う。