新しいものを表示

手元のバイナリではfalcon3が動かんから落としてきたらdefenderでマルウェア検出されて消された。うざすぎる。

スレッドを表示

Falcon3-10B-Instruct-1.58bitはこんな感じ。まあ、想像通り、使い物になるレベルではない。
今、4bit量子化モデルを落としてきてるので、それも試してからBitNetの最終評価をしようと思う。

スレッドを表示

とりあえずシステムプロンプト「あなたは優れた日本人アシスタントです。」した限りでは、日本語の意味の通る文章が辛うじて出力できるかな、レベルだった。
ただ、このFalcon3-10B-Instruct、4bit量子化とかではどんな性能かはまだ見てないから、まだBitNetによる性能劣化レベルについてはなんとも言えない。

スレッドを表示

huggingface.co/tiiuae/Falcon3-
Falcon3-10B-Instruct-1.58bitというBitNetモデルが賢いらしいと聞いたので、今慌てて評価してるところ。

BitNetの推論アプリはllama.cppの改造版なので、-pに指定した日本語が通らんとか、めんどくささがある。

それとバイナリがCPU版だから遅いなぁ。自分でビルドしなきゃいけないか。軽い評価だけならCPUでもいけるが、10Bモデルだと1.58bit量子化モデルといえ、3GB超えるし、そこそこ遅いんだよね。

スレッドを表示

llama-cli.exeに日本語通すには。UTF-8なテキストファイルにシステムプロンプト書いて-fパラメータにパス指定。

スレッドを表示

llama.cppのcliで日本語通すにはどうすればいいんだっけ。ああうざい…

x.com/EzoeRyou/status/18687440
x.com/EzoeRyou/status/18687443
x.com/EzoeRyou/status/18687550
私も概ね、同じ想像をしてるんだけど、AI使ってますアピールだとしてもむしろ逆効果な程、質が低いと思うんだよね…。

かといって、これ以上の計算資源を注いだら多分コストが高すぎて無理だろうし、そもそもLLMにRAGなんていう(実は)高度なタスクは厳しいと私は思ってる。

「AIによる概要」は、ほっといても自滅するとは思うんだけど、テコ入れして延命する可能性もあるかな。そこはGoogleさんのいつものサービス損切り判断の早さに期待したいところ。

スレッドを表示

Whisperもな。あいつ、常に無音から「ご視聴ありがとうございました」と空耳してる印象があるけど、逆にYouTube以外でどこで覚える可能性があるんだw

スレッドを表示

x.com/Mega_Gorilla_/status/186
YouTubeにはAI企業別に学習データ提供をオプトアウトする機能がついてるらしい。
一律禁止じゃなくて、ユーザーの意思に委ねるのは面白いな。でもそうあるべきかもしれない。
(ところでGoogle自身が学習することについてのオプトアウトは、やっぱりないんですかね?)

x.com/AIatMeta/status/18690722
医用画像をVLMに読ませることの嬉しさってどれくらいあるんだろう。VLMの精度を考えれば、こんな誰が見ても腰の骨が折れてると分かる写真に、腰の骨が折れてますよ、と指摘できるのが関の山ではないか?

そして、その診断を下せるのは医師のみだし、誰が見ても分かる病変を医師が分からない筈もない。

画像診断AIの有用性は分かるんだよね。あれは、大量の画像を学習することで、人間の認知能力とは異なるパターン認識が可能となり、人間では見つけるのが困難な病変を発見できる、という明確なメリットがあるので。

ただ、このポストのVLMはアラビア語-英語のハイブリッドらしいんで、医師が患者に説明する際の翻訳機として使うことを想定しているのかもしれない。

zenn.dev/kendama/articles/32aa
LLMに長文書かせるのに、まず段落分けさせて、次に各段落を埋めさせる手法がある。
でもモデル自体を長文対応に学習させるのがめんどいよね。

これまで書いた文をコンテキストにそのまま載せるんじゃなくて、これまで書いた文の要約をまず作り、それを載せていくようにすると、モデル学習不要で長文書かせられるのでお勧め。

要約が増えたら、「要約の要約」のように再帰的に圧縮していったり、要約をローテーションしたり、不要な要約(たとえば最初と直前の章以外)をマスクしたり、などの工夫をすれば、事実上、無限コンテキスト窓が得られるよ。

なので、「なんでreasoning部分もoutputと同額の従量課金なんだよ」と真っ先に思ったわけ。

outputは他のモデルより単価がめちゃ高い、しかしreasoning部分は無料、それならまだ分かる。

スレッドを表示

o1はAGIだ、みたいな世迷い言に騙されてないで正気に戻ると、これはただのテキスト出力APIで、テキスト量に比例して料金がかかるのに、出力テキストを返さないのはおかしいよな。

スレッドを表示

一つ言いたいことがあるが、従量課金でreasoning部分もきっちり課金するのに、そのreasoning結果をユーザーが受け取れないの、おかしいよね。金払ってるのに、成果物を寄越さないのはおかしい。

スレッドを表示

platform.openai.com/docs/api-r
今ちょっとo1のAPI仕様をみてたんだけど、reasoning専用のエントリポイントって無いんだ。普通にchat completionを使う。ただし、o1用にいくつかパラメータが増えてた。

reasoning_effortを指定することで、思考時間(思考にかけるトークン数)を制限かけられるみたい。ただし、low,medeium,highというアバウトな指定しかできない。

あと、戻り値にreasoning_tokensプロパティが追加されてて、これでreasoningに要したトークン数が取得できるようだ。

一つ気になるのは、ChatGPTにはある、reasoningの要約を表示する機能が、APIには無さそうな気がする。だとしたら困るんじゃないか?

スレッドを表示

今のところはo1 proのAPIは出てないが、モデルはo1と同じであると仮定すれば、おそらく単価はo1とほぼ同額になるんじゃないかな。(ぼってくる可能性はある)

その代わり推論時間が単純に増えるので、1回のAPIコールで数百円かかるとかは普通にありそう。これが推論時間スケーリング則の世界や…

スレッドを表示
古いものを表示
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。