llama-cli.exeに日本語通すには。UTF-8なテキストファイルにシステムプロンプト書いて-fパラメータにパス指定。
https://github.com/ggerganov/llama.cpp/issues/10768
これとは違うやつだが、b4351でもTrojan:Script/Sabsik.FL.A!mlというのが検出される。
https://github.com/ggerganov/llama.cpp/pull/10876
llama.cppのfalcon3サポート、バグがあったらしくて、差し戻されとる…なんてことだ。
https://huggingface.co/tiiuae/Falcon3-10B-Instruct-1.58bit
さて、改めてFalcon3-10B-Instruct-1.58bit(BitNet)のモデルカードを読んでたんだが、量子化には例のHFブログで上がってた方法(フルスクラッチ学習じゃなくてファインチューニング)を使ってるみたいだった。これね。
https://huggingface.co/blog/1_58_llm_extreme_quantization
この方法、llama3 8Bモデルで実験されたものが、既に公開されてるんだけど、性能は全然だった。BitNet、少なくとも既存モデルのファインチューニングではダメなのは確実だと思う。
Microsoftはいい加減に、フルスクラッチでちゃんと性能出てるBitNetモデルを公開すべき。
https://huggingface.co/tiiuae/Falcon3-10B-Instruct-1.58bit
Falcon3-10B-Instruct-1.58bitというBitNetモデルが賢いらしいと聞いたので、今慌てて評価してるところ。
BitNetの推論アプリはllama.cppの改造版なので、-pに指定した日本語が通らんとか、めんどくささがある。
それとバイナリがCPU版だから遅いなぁ。自分でビルドしなきゃいけないか。軽い評価だけならCPUでもいけるが、10Bモデルだと1.58bit量子化モデルといえ、3GB超えるし、そこそこ遅いんだよね。