mutaguchi: "今のところXではpredicted outputsの実装について予想してる人は居なさそうだ。「…" - Fedibird

2024年11月05日 01:28

mutaguchi @mutaguchi@fedibird.com

https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
OpenAI APIにpredicted outputsという機能が追加されたらしい。推論されるであろう内容に近い内容を事前にモデルに渡すことで、推論のレイテンシを下げるとのこと。

これ、実装は「投機的サンプリング」と似たような感じかな？　投機的サンプリングは、高速な小モデルに先に推論させて、その結果を低速な大モデルに検証させることで、大モデル単体で推論するよりも高速化を図る手法であった。
https://developer.nvidia.com/ja-jp/blog/mastering-llm-techniques-inference-optimization/

predicted outputsは、小モデルの代わりに、人間に先に推論させる…のではないだろうか？

2024年11月05日 01:38

mutaguchi @mutaguchi@fedibird.com

推論内容の誘導にpredicted outputsに近い手法を用いることは、既に一般的ではあるよね。

要は、プロンプトにコンテキストとuserメッセージに加え、推論させたい内容の書き出し部分を、assistantメッセージとして予め含めてしまう手法。

inferenceよりevaluationの方が速いから、この手法も一応は高速化手法でもある。

2024年11月05日 01:40

mutaguchi @mutaguchi@fedibird.com

predicted outputsが私の想像通りの実装だとすれば、ローカルLLMでも再現できそうだな。

mutaguchi @mutaguchi@fedibird.com

今のところXではpredicted outputsの実装について予想してる人は居なさそうだ。

「投機的サンプリング」の手法が提案されたときに、こういう手動サンプリングも当然思いつくはずだが、案外誰も思いつかなかったのかもね。コロンブスの卵だったのかも。

2024年11月05日 01:50 · · Web · · ·

ログインして会話に参加