2017年7月19日水曜日

Nyafoo!の処理能力と実用的な検索エンジン

実用的な検索エンジンには、どれぐらいのインデックスが必要なのでしょうか。

20年ほど前のロボット検索エンジン、gooやinfoseekでも1,000万件以上のURLをインデックスしていたはずです。
現在のNyafoo!のインデックス数は160万件前後ですから、少なく見積もっても現在の10倍ぐらいのURLを集める必要がありそうです。

ストレージは500GBぐらい用意すれば収まるでしょう。こっちはEBSで随時拡張できますから問題なさそうです。

elasticsearchはクラスタをうまく作れば、数千万件のインデックスを実用的な速さで処理できるので、上限は問題ないでしょう。実際に突っ込んでみないと分からないことがあると思いますが。

Nyafoo!は24時間で100万URLを処理する能力があります。それでも、目標のインデックスを周回するのに2週間以上かかる計算です。

現在は、形態素の辞書を鍛えながら周回しているため、インデックスの寿命を短く設定しています。形態素が賢くなり、インデックスの総数が増えてきたら、寿命を徐々に伸ばす感じでしょうか。

1,000万URLというと膨大な感じがしますが、官公庁・自治体、上場企業とグループ企業、主要マスコミ、各種の公式サイトだけで達成できそうです。