16

HTMLおよびXMLドキュメント(ローカルまたはWebベース)に対して使用するのに適したクローラー(スパイダー)とは何ですか?Lucene / Solrソリューションスペースでうまく機能しますか?Javaベースである可能性がありますが、そうである必要はありません。

4

7 に答える 7

11

私の意見では、これは Solr の普及を妨げているかなり重大な欠陥です。新しい DataImportHandler は、構造化データをインポートするための適切な最初のステップですが、Solr 用の適切なドキュメント取り込みパイプラインはありません。Nutch は機能しますが、Nutch クローラーと Solr の統合はやや不器用です。
見つけたすべてのオープンソース クローラーを試しましたが、そのままで Solr と統合できるものはありません。
OpenPipeline と Apache Tika に注目してください。

于 2008-11-12T21:28:16.720 に答える
6

私はnutchを試しましたが、Solrと統合するのは非常に困難でした。Heritrixを見てみましょう。Solrとの統合を容易にするための広範なプラグインシステムがあり、クロールがはるかに高速です。スレッドを多用してプロセスをスピードアップします。

于 2009-05-01T21:06:02.113 に答える
4

また、Apache Droids [ http://incubator.apache.org/droids/]も確認してください。これは単純なスパイダー/クローラー/ワーカー フレームワークではないことを願っています。

これは新しく、すぐに使用するのはまだ簡単ではありません (実行するには微調整が必​​要です) が、注意を払うことは良いことです。

于 2008-11-14T17:33:38.137 に答える
4

インスピレーションを得るために、Nutchをチェックすることをお勧めします。

Nutch は、オープン ソースの Web 検索ソフトウェアです。Lucene Java 上に構築され、クローラー、リンクグラフ データベース、HTML やその他のドキュメント形式のパーサーなどの Web 固有のものを追加します。

于 2008-11-12T01:19:12.947 に答える
2

http://arachnode.net

C#ですが、Lucene(JavaおよびC#)の消費可能なインデックスファイルを生成します。

于 2013-03-03T20:27:03.303 に答える
2

Nutch が最も近いかもしれませんが、柔軟性がありません。

さらに何かが必要な場合は、独自のクローラーをほとんどハックする必要があります。思ったほど悪くはありません。すべての言語には Web ライブラリがあるため、タスク キュー マネージャーを HTTP ダウンローダーと HTML パーサーに接続するだけで済みます。実際にはそれほど多くの作業は必要ありません。クロールはほとんどの場合、CPU を集中的に使用するのではなく、帯域幅を集中的に使用するため、単一のボックスで済む可能性が高くなります。

于 2009-01-11T01:02:18.883 に答える
0

誰かXapianを試しましたか?solr よりもはるかに高速で、c++ で記述されています。

于 2009-10-08T11:17:22.410 に答える