platform.openai.com/docs/guide
OpenAI APIにpredicted outputsという機能が追加されたらしい。推論されるであろう内容に近い内容を事前にモデルに渡すことで、推論のレイテンシを下げるとのこと。

これ、実装は「投機的サンプリング」と似たような感じかな? 投機的サンプリングは、高速な小モデルに先に推論させて、その結果を低速な大モデルに検証させることで、大モデル単体で推論するよりも高速化を図る手法であった。
developer.nvidia.com/ja-jp/blo

predicted outputsは、小モデルの代わりに、人間に先に推論させる…のではないだろうか?

推論内容の誘導にpredicted outputsに近い手法を用いることは、既に一般的ではあるよね。

要は、プロンプトにコンテキストとuserメッセージに加え、推論させたい内容の書き出し部分を、assistantメッセージとして予め含めてしまう手法。

inferenceよりevaluationの方が速いから、この手法も一応は高速化手法でもある。

predicted outputsが私の想像通りの実装だとすれば、ローカルLLMでも再現できそうだな。

フォロー

今のところXではpredicted outputsの実装について予想してる人は居なさそうだ。

「投機的サンプリング」の手法が提案されたときに、こういう手動サンプリングも当然思いつくはずだが、案外誰も思いつかなかったのかもね。コロンブスの卵だったのかも。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。