フォロー

の全文検索(本家、Nightlyとも)は、ElasticsearchにSudachiを組み合わせて使っています。日本語のテキストも検索しやすくなっていると思います。

テキストの分割は、CとAの組み合わせになっています。
github.com/WorksApplications/S

日本語に対応していなかったり、未知の単語を文字単位まで分割してしまう設定になっていると、漢字はもとより、ひらがなやカタカナの単語などが壊滅的になりますが、そのあたりはバランスがよさそうです。

また、システム辞書による表記の正規化が行われ、

送り違い
例) 打込む → 打ち込む

字種
例) かつ丼 → カツ丼

異体字
例) 附属 → 付属

誤用
例) シュミレーション → シミュレーション

縮約
例) ちゃあ → ては

などに対応しているようです。

サボっているので、ユーザー辞書は整備していませんが、Fediverse特有の語彙を持たせるとさらにスムースになるかもしれませんね。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。