2017年7月19日水曜日

Nyafoo!の処理能力と実用的な検索エンジン

実用的な検索エンジンには、どれぐらいのインデックスが必要なのでしょうか。

20年ほど前のロボット検索エンジン、gooやinfoseekでも1,000万件以上のURLをインデックスしていたはずです。
現在のNyafoo!のインデックス数は160万件前後ですから、少なく見積もっても現在の10倍ぐらいのURLを集める必要がありそうです。

ストレージは500GBぐらい用意すれば収まるでしょう。こっちはEBSで随時拡張できますから問題なさそうです。

elasticsearchはクラスタをうまく作れば、数千万件のインデックスを実用的な速さで処理できるので、上限は問題ないでしょう。実際に突っ込んでみないと分からないことがあると思いますが。

Nyafoo!は24時間で100万URLを処理する能力があります。それでも、目標のインデックスを周回するのに2週間以上かかる計算です。

現在は、形態素の辞書を鍛えながら周回しているため、インデックスの寿命を短く設定しています。形態素が賢くなり、インデックスの総数が増えてきたら、寿命を徐々に伸ばす感じでしょうか。

1,000万URLというと膨大な感じがしますが、官公庁・自治体、上場企業とグループ企業、主要マスコミ、各種の公式サイトだけで達成できそうです。

知禅(旧Nyafoo!)が1周年を迎えました

こんばんは。 知禅(旧Nyafoo!)を公開して、1年が経ちました。 当初、30万件程度だったインデックスは、現在2000万件前後に増えています。 サーバーも増えまして、当初2台構成だったクラスタは、現在19台が稼働しています。 構成を多重化しているため、無停止メンテナ...