実用的な検索エンジンには、どれぐらいのインデックスが必要なのでしょうか。
20年ほど前のロボット検索エンジン、gooやinfoseekでも1,000万件以上のURLをインデックスしていたはずです。
現在のNyafoo!のインデックス数は160万件前後ですから、少なく見積もっても現在の10倍ぐらいのURLを集める必要がありそうです。
ストレージは500GBぐらい用意すれば収まるでしょう。こっちはEBSで随時拡張できますから問題なさそうです。
elasticsearchはクラスタをうまく作れば、数千万件のインデックスを実用的な速さで処理できるので、上限は問題ないでしょう。実際に突っ込んでみないと分からないことがあると思いますが。
Nyafoo!は24時間で100万URLを処理する能力があります。それでも、目標のインデックスを周回するのに2週間以上かかる計算です。
現在は、形態素の辞書を鍛えながら周回しているため、インデックスの寿命を短く設定しています。形態素が賢くなり、インデックスの総数が増えてきたら、寿命を徐々に伸ばす感じでしょうか。
1,000万URLというと膨大な感じがしますが、官公庁・自治体、上場企業とグループ企業、主要マスコミ、各種の公式サイトだけで達成できそうです。