#fedibird の全文検索(本家、Nightlyとも)は、ElasticsearchにSudachiを組み合わせて使っています。日本語のテキストも検索しやすくなっていると思います。
テキストの分割は、CとAの組み合わせになっています。
https://github.com/WorksApplications/Sudachi#分割モード
日本語に対応していなかったり、未知の単語を文字単位まで分割してしまう設定になっていると、漢字はもとより、ひらがなやカタカナの単語などが壊滅的になりますが、そのあたりはバランスがよさそうです。
また、システム辞書による表記の正規化が行われ、
送り違い
例) 打込む → 打ち込む
字種
例) かつ丼 → カツ丼
異体字
例) 附属 → 付属
誤用
例) シュミレーション → シミュレーション
縮約
例) ちゃあ → ては
などに対応しているようです。
サボっているので、ユーザー辞書は整備していませんが、Fediverse特有の語彙を持たせるとさらにスムースになるかもしれませんね。