2017年8月1日火曜日

ojizoの目標、まず1,000万ドキュメント

ojizo(旧Nyafoo!)を公開して1か月が経ちました。一度、インデックスを設計し直したためゼロから再開しましたが、また200万ドキュメントを超えるようになりました。

今の目標は、1,000万ドキュメントをインデックスすることです。

これも根拠があって、昔のgooなどの検索エンジンでも1,000万件を超えるドキュメントをインデックスしていました。まずは、ここを目指そうと思っています。

現在、1週間で200万ドキュメントぐらいをクロールしています。今のペースなら、8月末に1,000万ドキュメントを達成できるでしょう。

elasticsearch自体は数千万ドキュメントを扱えます。ストレージは、5台のクラスタで500GBを確保しました。設計上は、検索インデックスを収めているクラスタを10台に増やせば、160TBまで拡張可能です。

オープンソースとクラウドで、どこまで行けるのか。試せるだけ試してみたいと思います。

FESSとkuromoji.txt

FESSのtakenizerは、ユーザーが辞書を拡張できるようになっています。 UIの「システム」→「辞書」から「ja/kuromoji.txt」を選ぶと、トークンの登録画面になります。 作業は簡単ですが、同じトークンを多重に登録すると、インデックスが更新できなくなる、けっ...