問題タブ [heritrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
72 参照

java - Heritrix 3.2.0 アクティブ スレッドの MirrorWriterProcessor

MirrorWriterProcessor クラスを使用している場合、アクティブなスレッドの最大数を増やすための de-outcomment プロパティを受け入れないため、アクティブなスレッドは常に 1 つしか得られません。私はJavaプログラマーではないので、誰かが私を助けてくれるなら、私はそれを感謝します。

0 投票する
0 に答える
116 参照

java - Heritrix: 単一ドメインで 1 秒あたりの URI を増やす方法は?

Heritrix 3.2.0 でドメインあたりの uri/sec を増やすには? 私はすでに並列オプションをmaxToeThreadsのような最大数に設定していますが、一般的に単一のドメインクロールで5つのアクティブなスレッドのままです。

0 投票する
1 に答える
258 参照

ssl - Pythonのリクエストモジュールを使用してヘリトリックスページをスクレイピングする

Pythons requestsモジュールを使用して、Heritrix ホームページをスクレイピングしたいと考えています。このページを Chrome で開こうとすると、次のエラーが表示されます。

しかし、私はページに進むことができます。requestsを使用して同じページをスクレイピングしようとすると、SSL エラーが発生し、少し掘り下げた後、SO の質問から次のコードを使用しました: r=requests.get(url,auth=(username, password),verify=False. これにより、次の警告が表示/usr/lib/python2.6/site-packages/requests/packages/urllib3/connectionpool.py:734: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.org/en/latest/security.htmlされ、ステータス コード 401 が返されます。この問題を解決するにはどうすればよいですか?

0 投票する
1 に答える
386 参照

java - Heritrix3.2.0 は ajax ベースの Web サイトをクロールできますか?

Heritrix-3.2.0 を使用して ajax ベースの Web サイトをクロールすることはできますか?

0 投票する
1 に答える
99 参照

linux - Heritrix3 Web Crawler で並列ジョブを実行できない

Heritrix 3.2.0で2 つのジョブを作成し、ビルド後に両方を起動しました。どちらも実行を開始しましたが、15 ~ 20 秒後に 1 つのジョブが停止し、別のジョブが続行され、ジョブが停止すると、ジョブ ログのステータスは次のようになります。

2015-05-12T06:40:33.715Z 情報が空です 20150512063923

そのため、ジョブをマルチプロセスできませんでした。修正方法は?

0 投票する
1 に答える
576 参照

heritrix - Heritrix: 1 つのサイトのみで robots.txt を無視する

Heritrix 3.2.0 を使用しています。

通常は robots.txt で保護されているページを含め、1 つのサイトからすべてを取得したいと考えています。

ただし、他のサイトのrobots.txt を無視したくありません。(Facebook や Google に怒られたくないですよね)

3.0/3.1 マニュアル (投稿の最後) のものによく似たシート オーバーレイを設定しようとしました。

ジョブはコメントなしでビルドされますが、オーバーレイはトリガーされていないようで、ローカルの robots.txt には引き続き従います。

それで、私は何を間違っていますか?

スティグ・ヘマー

0 投票する
1 に答える
683 参照

web-crawler - ヘリトリックス コンテンツ フィルタリング

複数の異なる Web サイト (主に HTML ページと PDF ドキュメント) からコンテンツを集約する必要があります。現在、Heritrix (3.2.0) を試して、自分のニーズを満たすかどうかを確認しています。

ドキュメントはかなり詳細ですが、エンジンは期待どおりに機能していないようです。いくつかの単純なジョブをセットアップし、さまざまな方法で DecideRules を構成しましたが、何をしても、Heritrix があまりにも多くのコンテンツを取り込んでいるか、まったく取り込んでいないことがわかりました。

これが私がやろうとしていることの例です。Heritrix をこのような URL に向けています...example.com/news/speeches. これは、個々のスピーチへのリンクを含む HTML テーブルを含む Web ページです (ex.example.com/news/speech/speech1.html、xample.com/news/speech/speech2.html など)。私が実際に必要とするのは、親ページから 1 レベル下の HTML および PDF ドキュメントだけです。Heritrix が 1 レベルよりも深く移動するのを防ぎ、example.com ドメインのこの特定のパスの下にない場合はコンテンツをプルできないようにし、別のドメインに移動できないようにし、html および pdf コンテンツに制限したいと考えています。

次の構成は、機能するはずですが、機能しません

/speech パスに含まれているのは 12 個ほどの HTML ドキュメントだけであるため、クロールでは 12 個程度の HTML ドキュメントしか取得できないと予想していました。約30分後、クロールが800以上のドキュメントをダウンロードしていたため、クロールを停止しました.親レベルのパスまで逆方向にトラバースしていることがわかりました. また、RegEx ルールを試してみましたが、うまくいきませんでした。どんな助けでも大歓迎です。