問題タブ [heritrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - スレッド数の増加
Heritrix を使用して、ある特定のドメインからページをクロールしようとしています。
クロール速度は非常に遅いようです。そして、1 つ気づいたことは、25 のスレッドがある一方で、そのうちの 24 は常にアイドル状態になっているということです。アクティブにキューから URI を取得し、サーバーからデータを取得しているスレッドは 1 つだけのようです。
25 個のスレッドすべてを利用するために使用できる構成はありますか? 私はすでに礼儀正しさ(最小/最大遅延)に関連する構成を発見して変更しました ありがとう!
web - heritrix で Web リストへの Web トレースを見つける
私は最近、私が働いている会社で Web クローラー Heritrix を使用していますが、しばらく検索してテストした後、ニーズを解決する方法が見つかりません。
cron でヘリトリクスを毎日自動的に実行して、Web ページのリストをクロールし、その Web のリンクがドメイン リストの Web を指しているかどうかを確認します。困難な部分と方法が見つからないのは、ドメインの 1 つを指すリンクへのすべてのトレースをログに記録することです。
ジョブのログ ファイルにはすべてのリンクがいくつかの情報と共に保存されますが、トレースは保存されません。たとえば、ジョブが完了したときにスクリプトを実行して、リスト内のドメインである brazzers を grep するため、クロール ログで「brazzers」が見つかった場合、最初から最後までのトレース全体を別のログに結果として表示する必要があります。
2015-10-25T20:18:58.369Z 200 91 http://cdn1.ads.brazzers.com/robots.txt XLEP http://cdn1.ads.brazzers.com/text/plain #021 20151025201857643+726 sha1: CPA63O5POU3CVLCH3VDDIMBJCCWRVLPC - -
これを行うことは可能ですか?それとも他の方法ですか? このようなことで非常に愚かに感じ、私はプログラミングがあまり得意ではありません
事前にどうもありがとうございました
エンリケ。
web-crawler - Heritrix Crawl は決定論的ですか?
ウェブサイト abc.com があり、以下のように abc.com の 100 ページをクロールするとします。
1 日目: maxDocumentsToDownload を 100 に指定して、heritrix でクロール ジョブを作成します。2 日目: 上記のジョブを heritrix で複製して実行します。
Web サイトが 2 日間変更されない場合、同じ 100 ページまたは別の 100 ページのセットになりますか?
さらに情報が必要な場合はお知らせください
ありがとう、ハリーシュ
heritrix - Heritrix がクロール ジョブを完了したことをどのように知ることができますか?
私たちのアプリケーションでは、Heritrix がクロール エンジンとして使用されており、クロール ジョブが完了すると、エンドポイントを手動で開始して Web サイトから PDF をダウンロードします。クロール ジョブが完了したらすぐに、この PDF のダウンロード タスクを自動化したいと考えています。HEritrix は、ジョブのステータスを返す URI/webservice メソッドを提供しますか? (または) ジョブのステータスを継続的に監視するために、ポーリング アプリを作成する必要がありますか?
heritrix - Heritrix 3.2.x、warc ファイルからコンテンツを読み取る方法は?
Heritrix 3.2.x を使用して、Web サイトをクロールしました。作成した warc ファイルから HTML コンテンツを読みたいと思います。誰でも助けることができますか?Python warc ツールと Java ベースの warc-tools.jar を使用してみました。
heritrix - クロール プログラムを正しく構成するにはどうすればいいですか
クロールを開始すると、本来よりもはるかに時間がかかり、まだ完了していないことに気付きました
プロセス pid をチェックして、別の端末から何が起こっているかを確認しようとしましたが、出力は明確ではありませんでした。それらはすべて次の形式でした。
SEED、Prod、Cat 以外によって削除されました **** https://(クロールを希望するページの URL)
おそらく誰かがそれらを理解しているなら、私に知らせてくれるとうれしいです! 誰かがそれを処理する方法を知っていれば、それがクロール構成コード (crawl-beans.cxml) であるとは思えません。教えてください。