2017年9月13日水曜日

大公開、ojizoの作り方

ojizo(旧Nyafoo!)はオープンソースのFessを使って構築しています。
ですので、ojizoというかFessベースのWeb検索エンジンは、誰でも作れるといえば作れるサービスです。

ひとつだけ面倒臭いというか、莫迦莫迦しい所がホワイトリストを使っていることでしょう。

隠すほどの事ではないので種明かしすると、ojizoはURL正規表現の塊です。
それ以外は、全部Fessです。
5,000サイト以上を正規表現で記述しています。
ひょっとしたら1万サイトを超えているかもしれません。
僕にも正確な数がわからない状態です。

1万サイトを目視して、URLリストを作り、正規表現で巡回先を記述したのか?
正解。
技術もへったくれもありません。

莫迦だと思った人は正しいです。
そう、ojizoは莫迦莫迦しい作業を積み重ねてできています。

例えば、新聞社がありますよね。
日本に100社ぐらいあるのですが、これをひとつひとつ目視で確認して、正規表現で記述してFessに登録します。

上場企業は2,000社近くありますが、これもひとつひとつ目視します。

都道府県庁、自治体、観光協会、農協、その他。
ひとつひとつ調べ、テキストエディタにURLを保存して、正規表現で巡回先を記述して、Fessに登録します。

登録して、クローラーを巡回させて、うまく行かないところは手直しして。
これを数千回繰り返します。

Yahoo! JAPANですら、人手によるサイト登録はあきらめてしまいました。
祖業であるディレクトリを終了するそうです。

巨人から見たら、ディレクトリを作るのは割に合わないのでしょう。
でも、巨人があきらめたから生まれる市場もあると思うんですよね。
なので、自分が嫌になるまでojizoのリストを作り続けようと思います。

FESSとkuromoji.txt

FESSのtakenizerは、ユーザーが辞書を拡張できるようになっています。 UIの「システム」→「辞書」から「ja/kuromoji.txt」を選ぶと、トークンの登録画面になります。 作業は簡単ですが、同じトークンを多重に登録すると、インデックスが更新できなくなる、けっ...