問題タブ [crawler4j]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

175 問題

0 投票する

3 に答える

2406 参照

java - クローラー4jでhttpsページをクロールする

何ヶ月も前から、https サイトをクロールするためにクローラー 4j を使用してきました。突然、先週の金曜日以降、まったく同じ https サイトをクロールできなくなりました。https プロトコルで何か変更がありましたか? サイトはhttps://enot.publicprocurement.be/enot-war/home.do

テストとして、タイトルを取得してみてください: Welkom op het platform e-Notification

どんな助けでも大歓迎です。

2014-01-28T12:19:48.883

0 投票する

0 に答える

525 参照

java - Quartzスケジューラー+crawler4Jのhttp接続エラー

Quartzスケジューラーとcrawler4jを組み合わせようとしています。

問題は、main メソッドで C4J コードを実行すると正常に動作するが、クォーツ Job execute() メソッドで Http 接続エラーが発生することです。

私たちはプロキシの背後で作業していますが、すでにwinthin C4jで構成されており、Quartzでも試しました.

Quartz が Http 接続をブロックできるかどうか知っていますか?

エラースタックトレース:

execute() メソッド:

助けてくれてありがとう:)

java http proxy quartz-scheduler crawler4j

2014-02-05T13:25:56.217

0 投票する

2 に答える

558 参照

crawler4j - Crawler4j に発信リンクがありませんか?

Crawler4j を使用して、Apache メーリングリストをクロールして、アーカイブされたすべてのメッセージを取得しようとしています。シード URL を提供し、他のメッセージへのリンクを取得しようとしています。ただし、すべてのリンクを抽出しているわけではないようです。

以下は私のシードページの HTML です ( http://mail-archives.apache.org/mod_mbox/kafka-users/201211.mbox/%3CCAOG_4QZ-yyrcwTpRu-8eu6VoUoM3%3DAo_J8Linhpnc%2B6y7tOcxg%40mail.gmail.com%3E ) :

これらは、Crawler4j によって識別される発信 URL です。

しかし、興味のある URL がありません。

私は何を間違っていますか？Crawler4j で必要な URL を抽出するにはどうすればよいですか?

crawler4j

2014-02-07T08:02:10.557

0 投票する

1 に答える

539 参照

java - Crawler4j - 多くの URL が破棄される/処理されない (出力にない)

100 万の URL のステータス (http 応答) コードを見つけるために、crawler4j を実行しています。処理する URL を除外するフィルターを設定していません。
90% の URL に対して適切な応答が得られますが、出力に 10% がありません。
Webcrawler 拡張クラスの handlePageStatusCode() メソッドにも表示されません。おそらく、さまざまな問題のために処理されていません。
不足している URL を見つけて再処理することはできますか? URL を見逃さないようにクロールプロセスを改善できますか?

java web-crawler crawler4j

2014-02-16T11:51:34.267

0 投票する

1 に答える

260 参照

regex - URLのCrawler4j正規表現パターン

私はクローラー4Jを使用しており、URLのみにいくつかのパターンを作成したいのですが、そのURLの正規表現を解決できませんでした:

私はそれを試します:

と

しかし、それは機能していません。

どうすれば正規表現パターンにできますか?

regex crawler4j

2014-03-07T23:10:53.930

0 投票する

0 に答える

794 参照

java - Crawler4j を使用して Arraylist を HTML ファイルに出力しますか?

このプログラムの基本; コントローラー (メイン) でユーザーが指定した PerentUrl とキーワードに基づいて Web クローラーを実行します。キーワードがページテキストで見つかった場合、Url は配列リストに保存されます。

ArrayList UrlHits = new ArrayList();

クロールが完了すると、プログラムはメインの WriteFile クラスからメソッドを呼び出して、すべての UrlHits を含む html ファイルを書き込みます。

f.addUrl を除くすべてが正しく機能し、正しい名前とディレクトリで html ファイルが作成されます。しかし、ArrayList 出力からファイルへの文字列はありません。

}

public class Crawler extends WebCrawler {

}

パブリッククラス WriteFile {

}

コードブロックの外側にあるクラスヘッダーについては、少し面倒です。メソッドが配列リストを出力するようにするために、いくつかの異なる「for」ステートメントを試しましたが、それを持っていないようです。文字列は、メインの for ループを使用して呼び出すことができるため、配列リストに追加されています。しかし、配列リストを addUrl メソッドに渡すと、スクワットが発生します。フォーマッタと .format を使用して配列リストを使用する簡単な方法はありますか?

助けてくれてありがとう

java arraylist crawler4j

2014-03-13T17:35:46.353

0 投票する

1 に答える

1658 参照

web-crawler - ロボットとして認識された静的 IP からのクロール

私は問題があります。

必要なページが /pgol/ にあり、robots.txt に次のように記載されている場合でも、私の Web クローラーは自宅と大学から正しく実行されます。

しかし、職場から実行すると、サイトはすぐに私をロボットとして認識し、次のページを送信します。

これは私の同僚が悪い要求をたくさんしたことが原因だと思います。サーバーは私たちの IP を悪いロボットとして登録しました。

サーバーの効果的な機能が何であるかわからないので、今言ったことは間違っている可能性があります.

私はJava、特にGoogle Codeのcrawler4jを使用しています

状況を説明して、解決策を提案してもらえますか?

web-crawler robots.txt crawler4j static-ip-address

2014-03-28T08:58:54.883

1 2 3 4 5 6 7 8 9 10

問題タブ [crawler4j]

Reference