https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
OpenAI APIにpredicted outputsという機能が追加されたらしい。推論されるであろう内容に近い内容を事前にモデルに渡すことで、推論のレイテンシを下げるとのこと。
これ、実装は「投機的サンプリング」と似たような感じかな? 投機的サンプリングは、高速な小モデルに先に推論させて、その結果を低速な大モデルに検証させることで、大モデル単体で推論するよりも高速化を図る手法であった。
https://developer.nvidia.com/ja-jp/blog/mastering-llm-techniques-inference-optimization/
predicted outputsは、小モデルの代わりに、人間に先に推論させる…のではないだろうか?
predicted outputsが私の想像通りの実装だとすれば、ローカルLLMでも再現できそうだな。
今のところXではpredicted outputsの実装について予想してる人は居なさそうだ。
「投機的サンプリング」の手法が提案されたときに、こういう手動サンプリングも当然思いつくはずだが、案外誰も思いつかなかったのかもね。コロンブスの卵だったのかも。