lucene - LuceneまたはSolrで使用するスパイダリングツールの推奨事項は？

Question

HTMLおよびXMLドキュメント（ローカルまたはWebベース）に対して使用するのに適したクローラー（スパイダー）とは何ですか？Lucene / Solrソリューションスペースでうまく機能しますか？Javaベースである可能性がありますが、そうである必要はありません。

score 11 · Accepted Answer

私の意見では、これは Solr の普及を妨げているかなり重大な欠陥です。新しい DataImportHandler は、構造化データをインポートするための適切な最初のステップですが、Solr 用の適切なドキュメント取り込みパイプラインはありません。Nutch は機能しますが、Nutch クローラーと Solr の統合はやや不器用です。
見つけたすべてのオープンソースクローラーを試しましたが、そのままで Solr と統合できるものはありません。
OpenPipeline と Apache Tika に注目してください。

score 6 · Accepted Answer

私はnutchを試しましたが、Solrと統合するのは非常に困難でした。Heritrixを見てみましょう。Solrとの統合を容易にするための広範なプラグインシステムがあり、クロールがはるかに高速です。スレッドを多用してプロセスをスピードアップします。

score 4 · Accepted Answer

また、Apache Droids [ http://incubator.apache.org/droids/]も確認してください。これは単純なスパイダー/クローラー/ワーカーフレームワークではないことを願っています。

これは新しく、すぐに使用するのはまだ簡単ではありません (実行するには微調整が必要です) が、注意を払うことは良いことです。

score 4 · Accepted Answer

インスピレーションを得るために、Nutchをチェックすることをお勧めします。

Nutch は、オープンソースの Web 検索ソフトウェアです。Lucene Java 上に構築され、クローラー、リンクグラフデータベース、HTML やその他のドキュメント形式のパーサーなどの Web 固有のものを追加します。

score 2 · Accepted Answer

http://arachnode.net

C＃ですが、Lucene（JavaおよびC＃）の消費可能なインデックスファイルを生成します。

score 2 · Accepted Answer

Nutch が最も近いかもしれませんが、柔軟性がありません。

さらに何かが必要な場合は、独自のクローラーをほとんどハックする必要があります。思ったほど悪くはありません。すべての言語には Web ライブラリがあるため、タスクキューマネージャーを HTTP ダウンローダーと HTML パーサーに接続するだけで済みます。実際にはそれほど多くの作業は必要ありません。クロールはほとんどの場合、CPU を集中的に使用するのではなく、帯域幅を集中的に使用するため、単一のボックスで済む可能性が高くなります。

score 0 · Accepted Answer

誰かXapianを試しましたか？solr よりもはるかに高速で、c++ で記述されています。

lucene - LuceneまたはSolrで使用するスパイダリングツールの推奨事項は？

7 に答える 7

Related

Reference