実用的な検索エンジンには、どれぐらいのインデックスが必要なのでしょうか。
20年ほど前のロボット検索エンジン、gooやinfoseekでも1,000万件以上のURLをインデックスしていたはずです。
現在のNyafoo!のインデックス数は160万件前後ですから、少なく見積もっても現在の10倍ぐらいのURLを集める必要がありそうです。
ストレージは500GBぐらい用意すれば収まるでしょう。こっちはEBSで随時拡張できますから問題なさそうです。
elasticsearchはクラスタをうまく作れば、数千万件のインデックスを実用的な速さで処理できるので、上限は問題ないでしょう。実際に突っ込んでみないと分からないことがあると思いますが。
Nyafoo!は24時間で100万URLを処理する能力があります。それでも、目標のインデックスを周回するのに2週間以上かかる計算です。
現在は、形態素の辞書を鍛えながら周回しているため、インデックスの寿命を短く設定しています。形態素が賢くなり、インデックスの総数が増えてきたら、寿命を徐々に伸ばす感じでしょうか。
1,000万URLというと膨大な感じがしますが、官公庁・自治体、上場企業とグループ企業、主要マスコミ、各種の公式サイトだけで達成できそうです。
2017年7月19日水曜日
私の節約(スマートフォン)
こんばんは。 倹約&節約に励むにしても、ガイドラインがないとやりづらいかもしれません。 僕が使っている組み合わせを紹介しましょう。 本体を安くしたり、回線を太くしたり、使い方に合わせると良いと思います。 ■基本的な考え方 SIMフリーしか買わない。 子供もSIMフリ...
-
あまりに情報が無いので、自分で調べた物を勝手に書くことにしました。 FESSの設定は、ローカルに保存されるものと、elasticsearch(以下es)に保存されるものがあります。 ■esに保存されるもの ユーザー情報とパスワード Web、ファイルなどのクロール設...
-
「イノベーション横断組織」なるものが作られ、各事業部からエース級とお目付け役が集められます。月1ぐらいで集まって、当社のイノベーションについて会議が開かれますが、結局時間が過ぎてゆくだけです。 よく見る光景です。では、なぜ優秀な人が集まっているのに、イノベーションが起きないの...
-
知禅は赤字です。大きなサーバを動かしており、維持費が大きいのです。 一応広告もありますが、まだまだサーバー代を賄えるほどではありません。 そこで、お願いです。知禅が存続できるよう、支援をお願いいたします。 少額でも、長期の支援をいただけると助かります。 支援ぷらっふぉ...