RareTECH授業「全文検索について」
本日RareTECHの授業を受講したのでアウトプットしておきます
全文検索の種類
逐次検索
0〜100まで検索する
grep, find コマンドなどが該当する
実装が楽(配列に入れてfor文で回すなど)
数量が多くなると処理が重くなる
索引型
基本的にこちらが使われている
数量が多い所の処理が得意
どんなデータベースかによって効力を発揮したりしなかったりする
抜けがあってはいけない
更に索引型の種類
形態素解析
システム辞書に登録されている
されていないと索引出来ない
新しい単語に対応出来ない
部分一致に弱い
ngram方式
ノイズが多い
単語だけでも覚えておくべきこと
pros / cons
曖昧インクリメント検索
Elastic Search
適合率 再現率
SHELLで使う変数 --> 環境変数
突き詰める必要があるかどうか
ただ、ツールを使いこなせるようになる必要はある。