#fedibird #fedibird_info
緩募ですが、全文検索で単語認識されなくて不便なワードありますか?
あったら登録しておこうと思っています。
たとえば「のえる」で検索しようとした際に、単語登録しておかないと「の」「え」「る」に分解されてそれぞれを含む投稿を探してしまうので、まったく意図しない検索結果になります。
そこで、fedibird.comの全文検索エンジンには「のえる」を単語登録してあります。
(※ "のえる" のようにダブルクォートで囲めばそのままの文字列検索も可能です)
また、標準の辞書に「東京都」と「京都」があるので、京都を検索しようとしたときに誤って東京都が出てくることがありません。
@tukine 登録してアップデートしてみた。うまくいってるかな?
@noellabo うまくいってました!!
@noellabo
ゆる募とはニュアンスが異なるがスペース問題をどーにかしてくれ
例:al jazeera(スペース有り)
aljazeera (スペースなし)
スペースの有無で検索結果が変わる
私はスペースなしでずっと検索していたので最近まで公式に辿り着けずにいた
@yama35_ これはまた難しい課題だ。
日本語は単語の区切りにスペースをつけないので分解してインデックスするんだけど、アルファベットの並びはそのまま単語として理解して分解しないから、
複数の単語で構成されている語であることを人間側が知っていないと気付かないね。
ちなみに、わかっているなら、
"al jazeera",aljazeera
って書くことで両方の検索結果を同時に出せるね。
これに対応するには、自動的に複数単語に分解して候補に加える機能と辞書が必要だけど、そういう分解機能が要るわ。
ElasticseachではDictionaryCompoundWordTokenFilterで出来そう。
探したいけど記号の都合で諦めてるのならありますね
「C#」はさすがに囲ってもCで検索されちゃって…
@tyk8417u あー、除外される記号ありますね。C#は探したい……
@noellabo 「絵文字リアクション」が「絵文字」と「リアクション」に分解されてしまうので、「絵文字リアクション」を登録してもらえると嬉しいです〜