search-engine - Nutchの代替Webクローラー

Question

限られた数のWebサイトにインデックスを付ける専用の検索エンジンWebサイトを構築しようとしています。私が思いついた解決策は次のとおりです。

問題は、Nutchが非常に複雑であり、詳細なドキュメント（本、最近のチュートリアルなど）が存在しないにもかかわらず、カスタマイズするのに大きなソフトウェアであることに気付くということです。

今の質問：

ありがとう

score 4 · Accepted Answer

これは、クロールすると考えられる Web サイトと URL の数によって異なります。Apache Nutch はページドキュメントを Apache HBase (Apache Hadoop に依存) に保存します。これは堅牢ですが、セットアップと管理が非常に困難です。

クローラーは単なるページフェッチ (CURL のような) であり、URL データベースにフィードするためのリンクのリストを取得します。 MySQL データベース (おそらく、クロールジョブをスケジュールする RabbitMQ のようなキューソフトウェア)。

一方、クローラーはより洗練されたものになる可能性があり、HTML ドキュメントから HEAD 部分を削除し、ページの実際の「コンテンツ」のみを保持することができます。

また、Nutch は PageRank アルゴリズムを使用してページをランク付けできます。Apache Spark を使用して同じことを行うことができます (Spark はデータをメモリにキャッシュできるため、より効率的です)。

score 4 · Accepted Answer

Scrapyは、Web サイトをクロールする Python ライブラリです。これは (Nutch に比べて) かなり小さく、限られたサイトクロール用に設計されています。Django タイプの MVC スタイルで、カスタマイズが非常に簡単です。

score 4 · Accepted Answer

這う部分はanemoneとcrawler4jがとても好きです。どちらも、リンクの選択とページ処理のためのカスタムロジックを追加できます。保持することを決めたページごとに、Solr への呼び出しを簡単に追加できます。

score 2 · Accepted Answer

では、C# ですが、はるかに単純で、作成者と直接通信できます。（自分）

私はNutchを使用していましたが、あなたは正しいです。それは一緒に働くクマです。

score 0 · Accepted Answer

Nutch がアプリケーションにとって最良の選択であると確信していますが、必要に応じて、単純なツールHeritrixがあります。それに加えて、フロントエンド言語には js をお勧めします。なぜなら、solr は js で簡単に処理できる json を返すからです。

5 に答える 5