HTMLおよびXMLドキュメント(ローカルまたはWebベース)に対して使用するのに適したクローラー(スパイダー)とは何ですか?Lucene / Solrソリューションスペースでうまく機能しますか?Javaベースである可能性がありますが、そうである必要はありません。
7 に答える
私の意見では、これは Solr の普及を妨げているかなり重大な欠陥です。新しい DataImportHandler は、構造化データをインポートするための適切な最初のステップですが、Solr 用の適切なドキュメント取り込みパイプラインはありません。Nutch は機能しますが、Nutch クローラーと Solr の統合はやや不器用です。
見つけたすべてのオープンソース クローラーを試しましたが、そのままで Solr と統合できるものはありません。
OpenPipeline と Apache Tika に注目してください。
私はnutchを試しましたが、Solrと統合するのは非常に困難でした。Heritrixを見てみましょう。Solrとの統合を容易にするための広範なプラグインシステムがあり、クロールがはるかに高速です。スレッドを多用してプロセスをスピードアップします。
また、Apache Droids [ http://incubator.apache.org/droids/]も確認してください。これは単純なスパイダー/クローラー/ワーカー フレームワークではないことを願っています。
これは新しく、すぐに使用するのはまだ簡単ではありません (実行するには微調整が必要です) が、注意を払うことは良いことです。
インスピレーションを得るために、Nutchをチェックすることをお勧めします。
Nutch は、オープン ソースの Web 検索ソフトウェアです。Lucene Java 上に構築され、クローラー、リンクグラフ データベース、HTML やその他のドキュメント形式のパーサーなどの Web 固有のものを追加します。
C#ですが、Lucene(JavaおよびC#)の消費可能なインデックスファイルを生成します。
Nutch が最も近いかもしれませんが、柔軟性がありません。
さらに何かが必要な場合は、独自のクローラーをほとんどハックする必要があります。思ったほど悪くはありません。すべての言語には Web ライブラリがあるため、タスク キュー マネージャーを HTTP ダウンローダーと HTML パーサーに接続するだけで済みます。実際にはそれほど多くの作業は必要ありません。クロールはほとんどの場合、CPU を集中的に使用するのではなく、帯域幅を集中的に使用するため、単一のボックスで済む可能性が高くなります。
誰かXapianを試しましたか?solr よりもはるかに高速で、c++ で記述されています。