https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputsOpenAI APIにpredicted outputsという機能が追加されたらしい。推論されるであろう内容に近い内容を事前にモデルに渡すことで、推論のレイテンシを下げるとのこと。
これ、実装は「投機的サンプリング」と似たような感じかな? 投機的サンプリングは、高速な小モデルに先に推論させて、その結果を低速な大モデルに検証させることで、大モデル単体で推論するよりも高速化を図る手法であった。https://developer.nvidia.com/ja-jp/blog/mastering-llm-techniques-inference-optimization/
predicted outputsは、小モデルの代わりに、人間に先に推論させる…のではないだろうか?
推論内容の誘導にpredicted outputsに近い手法を用いることは、既に一般的ではあるよね。
要は、プロンプトにコンテキストとuserメッセージに加え、推論させたい内容の書き出し部分を、assistantメッセージとして予め含めてしまう手法。
inferenceよりevaluationの方が速いから、この手法も一応は高速化手法でもある。
predicted outputsが私の想像通りの実装だとすれば、ローカルLLMでも再現できそうだな。
今のところXではpredicted outputsの実装について予想してる人は居なさそうだ。
「投機的サンプリング」の手法が提案されたときに、こういう手動サンプリングも当然思いつくはずだが、案外誰も思いつかなかったのかもね。コロンブスの卵だったのかも。
様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。
predicted outputsが私の想像通りの実装だとすれば、ローカルLLMでも再現できそうだな。