https://x.com/TetsuroMorimura/status/1837302545364263031
https://arxiv.org/abs/2404.13846
>LLMアライメント(RLHF)の標準となりつつあるDPOは、学習データに質の低い応答文が含まれると、従来のRLHF以上に性能が劣化
様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。