https://platform.openai.com/docs/guides/latency-optimization#use-predicted-outputs
OpenAI APIにpredicted outputsという機能が追加されたらしい。推論されるであろう内容に近い内容を事前にモデルに渡すことで、推論のレイテンシを下げるとのこと。
これ、実装は「投機的サンプリング」と似たような感じかな? 投機的サンプリングは、高速な小モデルに先に推論させて、その結果を低速な大モデルに検証させることで、大モデル単体で推論するよりも高速化を図る手法であった。
https://developer.nvidia.com/ja-jp/blog/mastering-llm-techniques-inference-optimization/
predicted outputsは、小モデルの代わりに、人間に先に推論させる…のではないだろうか?
推論内容の誘導にpredicted outputsに近い手法を用いることは、既に一般的ではあるよね。
要は、プロンプトにコンテキストとuserメッセージに加え、推論させたい内容の書き出し部分を、assistantメッセージとして予め含めてしまう手法。
inferenceよりevaluationの方が速いから、この手法も一応は高速化手法でもある。