2017年8月1日火曜日

ojizoの目標、まず1,000万ドキュメント

ojizo(旧Nyafoo!)を公開して1か月が経ちました。一度、インデックスを設計し直したためゼロから再開しましたが、また200万ドキュメントを超えるようになりました。

今の目標は、1,000万ドキュメントをインデックスすることです。

これも根拠があって、昔のgooなどの検索エンジンでも1,000万件を超えるドキュメントをインデックスしていました。まずは、ここを目指そうと思っています。

現在、1週間で200万ドキュメントぐらいをクロールしています。今のペースなら、8月末に1,000万ドキュメントを達成できるでしょう。

elasticsearch自体は数千万ドキュメントを扱えます。ストレージは、5台のクラスタで500GBを確保しました。設計上は、検索インデックスを収めているクラスタを10台に増やせば、160TBまで拡張可能です。

オープンソースとクラウドで、どこまで行けるのか。試せるだけ試してみたいと思います。

FESS11.4.10 crawlerのfileTypeHelperの置き場が変わっていました

結論から言うと、ここです。 /usr/share/fess/app/WEB-INF/env/crawler/resources env/が増えました。 FESSは時々ディレクトリ構成が変わるため、僕はaptでインストールするとき--reinstallを付けています。