緩募ですが、全文検索で単語認識されなくて不便なワードありますか?

あったら登録しておこうと思っています。

たとえば「のえる」で検索しようとした際に、単語登録しておかないと「の」「え」「る」に分解されてそれぞれを含む投稿を探してしまうので、まったく意図しない検索結果になります。

そこで、fedibird.comの全文検索エンジンには「のえる」を単語登録してあります。

(※ "のえる" のようにダブルクォートで囲めばそのままの文字列検索も可能です)

また、標準の辞書に「東京都」と「京都」があるので、京都を検索しようとしたときに誤って東京都が出てくることがありません。

フォロー

@noellabo
ゆる募とはニュアンスが異なるがスペース問題をどーにかしてくれ

例:al jazeera(スペース有り)
  aljazeera (スペースなし)

スペースの有無で検索結果が変わる
私はスペースなしでずっと検索していたので最近まで公式に辿り着けずにいた

@yama35_ これはまた難しい課題だ。

日本語は単語の区切りにスペースをつけないので分解してインデックスするんだけど、アルファベットの並びはそのまま単語として理解して分解しないから、

複数の単語で構成されている語であることを人間側が知っていないと気付かないね。

ちなみに、わかっているなら、

"al jazeera",aljazeera

って書くことで両方の検索結果を同時に出せるね。

これに対応するには、自動的に複数単語に分解して候補に加える機能と辞書が必要だけど、そういう分解機能が要るわ。

ElasticseachではDictionaryCompoundWordTokenFilterで出来そう。

ログインして会話に参加
Fedibird

様々な目的に使える、日本の汎用マストドンサーバーです。安定した利用環境と、多数の独自機能を提供しています。