https://dynomight.net/more-chess/
gpt-4o等のchat completionモデルと比べ、completionモデルであるgpt-3.5-turbo-instructだけチェスが強い現象があるらしい。
しかしgpt-4oでも、「まず現在までの手順を復唱した後に、次の手を出力せよ」のように指示し、さらにfew-shots promptingすれば、gpt-3.5-turbo-instruct並に強くなったらしい。
このことから、チャットテンプレートに含まれる、role指定トークン(OpenAIのChatMLなら"<|im_end|>\n<|im_start|>assistant\n")によりチェス手順が分割されるのが、chat completionモデルでの性能劣化を招いているのでは、という考察がされている。
なおLlama3などオープン系モデルは、completionモデルであっても、どれも等しくチェスが弱いらしい。なので、OpenAIの基盤モデルは他のオープン系モデルに比べてそもそも地頭が良いのでは、という考察も。
gpt-3.5-turbo-instructだけチェス強い現象は興味深いし、その理由を検証するための実験手順は適切だし、結論にも妥当性を感じる。良い研究であった。
実際、chat completionモデルは、生成タスクにおいてはナーフ要素になり得るよね。小説なんか書かせたいときでも、小説の冒頭を与えて続きを書け、という指示を出すより、小説の冒頭を与えて続きを補完させる方が、ずっと良い結果になる。