学習忘備録

学習のアウトプットや感じた事を発信していきます

RareTECH授業「全文検索について」

本日RareTECHの授業を受講したのでアウトプットしておきます

 

全文検索の種類

逐次検索

0〜100まで検索する

grep, find コマンドなどが該当する

実装が楽(配列に入れてfor文で回すなど)

数量が多くなると処理が重くなる

索引型

基本的にこちらが使われている

数量が多い所の処理が得意

どんなデータベースかによって効力を発揮したりしなかったりする

抜けがあってはいけない

 

更に索引型の種類

形態素解析

システム辞書に登録されている

されていないと索引出来ない

新しい単語に対応出来ない

部分一致に弱い

 

ngram方式

ノイズが多い

 

単語だけでも覚えておくべきこと

pros / cons
曖昧インクリメント検索
Elastic Search

元々OSS --> AWSが関係?

適合率 再現率

 

SHELLで使う変数 --> 環境変数

 

突き詰める必要があるかどうか

ただ、ツールを使いこなせるようになる必要はある。