2017年7月19日水曜日

Nyafoo!の処理能力と実用的な検索エンジン

実用的な検索エンジンには、どれぐらいのインデックスが必要なのでしょうか。

20年ほど前のロボット検索エンジン、gooやinfoseekでも1,000万件以上のURLをインデックスしていたはずです。
現在のNyafoo!のインデックス数は160万件前後ですから、少なく見積もっても現在の10倍ぐらいのURLを集める必要がありそうです。

ストレージは500GBぐらい用意すれば収まるでしょう。こっちはEBSで随時拡張できますから問題なさそうです。

elasticsearchはクラスタをうまく作れば、数千万件のインデックスを実用的な速さで処理できるので、上限は問題ないでしょう。実際に突っ込んでみないと分からないことがあると思いますが。

Nyafoo!は24時間で100万URLを処理する能力があります。それでも、目標のインデックスを周回するのに2週間以上かかる計算です。

現在は、形態素の辞書を鍛えながら周回しているため、インデックスの寿命を短く設定しています。形態素が賢くなり、インデックスの総数が増えてきたら、寿命を徐々に伸ばす感じでしょうか。

1,000万URLというと膨大な感じがしますが、官公庁・自治体、上場企業とグループ企業、主要マスコミ、各種の公式サイトだけで達成できそうです。

なぜ「イノベーション横断組織」は何も生み出さないのか

「イノベーション横断組織」なるものが作られ、各事業部からエース級とお目付け役が集められます。月1ぐらいで集まって、当社のイノベーションについて会議が開かれますが、結局時間が過ぎてゆくだけです。 よく見る光景です。では、なぜ優秀な人が集まっているのに、イノベーションが起きないの...