2017年12月19日火曜日

FESSインデックスと圧縮

FESSのメインインデックスは、油断すると数百GBになってきます。
SSDを増やすにも限度があるので、圧縮することにしました。

fess.yyyymmddインデックスを新しく作るときに、"index"以下に下記の設定を加えました。

    "codec": "best_compression"

低速ですが高圧縮なアルゴリズムに切り替わります。

古いelasticsearchのドキュメントだと、「elasticsearch.ymlに記述する」と書いてありますが、今のelasticsearchではインデックスの設定で記述します。

staticな要素のため、インデックスの作成時か、クローズしたインデックスで指定しなさい、と公式ドキュメントにありますね。

僕は1か月ごとぐらいに_reindexで内容を詰めなおすので、新しく作ったfess.yyyymmddに指定しました。

FESSとkuromoji.txt

FESSのtakenizerは、ユーザーが辞書を拡張できるようになっています。 UIの「システム」→「辞書」から「ja/kuromoji.txt」を選ぶと、トークンの登録画面になります。 作業は簡単ですが、同じトークンを多重に登録すると、インデックスが更新できなくなる、けっ...