#fedibird #fedibird_info
緩募ですが、全文検索で単語認識されなくて不便なワードありますか?
あったら登録しておこうと思っています。
たとえば「のえる」で検索しようとした際に、単語登録しておかないと「の」「え」「る」に分解されてそれぞれを含む投稿を探してしまうので、まったく意図しない検索結果になります。
そこで、fedibird.comの全文検索エンジンには「のえる」を単語登録してあります。
(※ "のえる" のようにダブルクォートで囲めばそのままの文字列検索も可能です)
また、標準の辞書に「東京都」と「京都」があるので、京都を検索しようとしたときに誤って東京都が出てくることがありません。
@yama35_ これはまた難しい課題だ。
日本語は単語の区切りにスペースをつけないので分解してインデックスするんだけど、アルファベットの並びはそのまま単語として理解して分解しないから、
複数の単語で構成されている語であることを人間側が知っていないと気付かないね。
ちなみに、わかっているなら、
"al jazeera",aljazeera
って書くことで両方の検索結果を同時に出せるね。
これに対応するには、自動的に複数単語に分解して候補に加える機能と辞書が必要だけど、そういう分解機能が要るわ。
ElasticseachではDictionaryCompoundWordTokenFilterで出来そう。