https://dynomight.net/more-chess/
gpt-4o等のchat completionモデルと比べ、completionモデルであるgpt-3.5-turbo-instructだけチェスが強い現象があるらしい。
しかしgpt-4oでも、「まず現在までの手順を復唱した後に、次の手を出力せよ」のように指示し、さらにfew-shots promptingすれば、gpt-3.5-turbo-instruct並に強くなったらしい。
このことから、チャットテンプレートに含まれる、role指定トークン(OpenAIのChatMLなら"<|im_end|>\n<|im_start|>assistant\n")によりチェス手順が分割されるのが、chat completionモデルでの性能劣化を招いているのでは、という考察がされている。
なおLlama3などオープン系モデルは、completionモデルであっても、どれも等しくチェスが弱いらしい。なので、OpenAIの基盤モデルは他のオープン系モデルに比べてそもそも地頭が良いのでは、という考察も。
chatチューニングは、Q&Aタスクとか会話タスクが得意というだけで、一般的な生成タスクだと性能が落ちがち。
でも、AIの「安全性」(エロ、犯罪などを出力しないこと)担保のためには、chatチューニングは不可欠なんだろうなあ。