限られた数のWebサイトにインデックスを付ける専用の検索エンジンWebサイトを構築しようとしています。私が思いついた解決策は次のとおりです。
- NutchをWebクローラーとして使用し、
- Solrを検索エンジンとして使用し、
- フロントエンドとサイトロジックはWicketでコーディングされています。
問題は、Nutchが非常に複雑であり、詳細なドキュメント(本、最近のチュートリアルなど)が存在しないにもかかわらず、カスタマイズするのに大きなソフトウェアであることに気付くということです。
今の質問:
- サイトの穴のアイデアについて建設的な批判はありますか?
- (サイトのクロール部分として)Nutchに代わる優れたシンプルな方法はありますか?
ありがとう