https://dynomight.net/more-chess/
gpt-4o等のchat completionモデルと比べ、completionモデルであるgpt-3.5-turbo-instructだけチェスが強い現象があるらしい。
しかしgpt-4oでも、「まず現在までの手順を復唱した後に、次の手を出力せよ」のように指示し、さらにfew-shots promptingすれば、gpt-3.5-turbo-instruct並に強くなったらしい。
このことから、チャットテンプレートに含まれる、role指定トークン(OpenAIのChatMLなら"<|im_end|>\n<|im_start|>assistant\n")によりチェス手順が分割されるのが、chat completionモデルでの性能劣化を招いているのでは、という考察がされている。
なおLlama3などオープン系モデルは、completionモデルであっても、どれも等しくチェスが弱いらしい。なので、OpenAIの基盤モデルは他のオープン系モデルに比べてそもそも地頭が良いのでは、という考察も。
あとOpenAIの基盤モデルは、やっぱりそこらのオープン系LLMとは格が違うんだと思う。パラメータ数だけでは測れない何かがある。たぶんデータセットの質なんだろうな。
チェスプロンプト、「お前はチェスのグランドマスターだ。次の手を考えろ」という内容だけど、completionモデルに特化するなら、「以下にグランドマスター対アマチュアのチェス譜面を提示します。」とかにした方が強くなりそうな気もする。