問題タブ [crawler4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - クローラー4jでhttpsページをクロールする
何ヶ月も前から、https サイトをクロールするためにクローラー 4j を使用してきました。突然、先週の金曜日以降、まったく同じ https サイトをクロールできなくなりました。https プロトコルで何か変更がありましたか? サイトはhttps://enot.publicprocurement.be/enot-war/home.do
テストとして、タイトルを取得してみてください: Welkom op het platform e-Notification
どんな助けでも大歓迎です。
java - Quartzスケジューラー+crawler4Jのhttp接続エラー
Quartzスケジューラーとcrawler4jを組み合わせようとしています。
問題は、main メソッドで C4J コードを実行すると正常に動作するが、クォーツ Job execute() メソッドで Http 接続エラーが発生することです。
私たちはプロキシの背後で作業していますが、すでにwinthin C4jで構成されており、Quartzでも試しました.
Quartz が Http 接続をブロックできるかどうか知っていますか?
エラースタックトレース:
execute() メソッド:
助けてくれてありがとう:)
crawler4j - Crawler4j に発信リンクがありませんか?
Crawler4j を使用して、Apache メーリング リストをクロールして、アーカイブされたすべてのメッセージを取得しようとしています。シード URL を提供し、他のメッセージへのリンクを取得しようとしています。ただし、すべてのリンクを抽出しているわけではないようです。
以下は私のシードページの HTML です ( http://mail-archives.apache.org/mod_mbox/kafka-users/201211.mbox/%3CCAOG_4QZ-yyrcwTpRu-8eu6VoUoM3%3DAo_J8Linhpnc%2B6y7tOcxg%40mail.gmail.com%3E ) :
これらは、Crawler4j によって識別される発信 URL です。
しかし、興味のある URL がありません。
私は何を間違っていますか?Crawler4j で必要な URL を抽出するにはどうすればよいですか?
java - Crawler4j - 多くの URL が破棄される/処理されない (出力にない)
100 万の URL のステータス (http 応答) コードを見つけるために、crawler4j を実行しています。処理する URL を除外するフィルターを設定していません。
90% の URL に対して適切な応答が得られますが、出力に 10% がありません。
Webcrawler 拡張クラスの handlePageStatusCode() メソッドにも表示されません。おそらく、さまざまな問題のために処理されていません。
不足している URL を見つけて再処理することはできますか? URL を見逃さないようにクロール プロセスを改善できますか?
regex - URLのCrawler4j正規表現パターン
私はクローラー4Jを使用しており、URLのみにいくつかのパターンを作成したいのですが、そのURLの正規表現を解決できませんでした:
私はそれを試します:
と
しかし、それは機能していません。
どうすれば正規表現パターンにできますか?
java - Crawler4j を使用して Arraylist を HTML ファイルに出力しますか?
このプログラムの基本; コントローラー (メイン) でユーザーが指定した PerentUrl とキーワードに基づいて Web クローラーを実行します。キーワードがページ テキストで見つかった場合、Url は配列リストに保存されます。
ArrayList UrlHits = new ArrayList();
クロールが完了すると、プログラムはメインの WriteFile クラスからメソッドを呼び出して、すべての UrlHits を含む html ファイルを書き込みます。
f.addUrl を除くすべてが正しく機能し、正しい名前とディレクトリで html ファイルが作成されます。しかし、ArrayList 出力からファイルへの文字列はありません。
}
public class Crawler extends WebCrawler {
}
パブリック クラス WriteFile {
}
コード ブロックの外側にあるクラス ヘッダーについては、少し面倒です。メソッドが配列リストを出力するようにするために、いくつかの異なる「for」ステートメントを試しましたが、それを持っていないようです。文字列は、メインの for ループを使用して呼び出すことができるため、配列リストに追加されています。しかし、配列リストを addUrl メソッドに渡すと、スクワットが発生します。フォーマッタと .format を使用して配列リストを使用する簡単な方法はありますか?
助けてくれてありがとう
web-crawler - ロボットとして認識された静的 IP からのクロール
私は問題があります。
必要なページが /pgol/ にあり、robots.txt に次のように記載されている場合でも、私の Web クローラーは自宅と大学から正しく実行されます。
しかし、職場から実行すると、サイトはすぐに私をロボットとして認識し、次のページを送信します。
これは私の同僚が悪い要求をたくさんしたことが原因だと思います。サーバーは私たちの IP を悪いロボットとして登録しました。
サーバーの効果的な機能が何であるかわからないので、今言ったことは間違っている可能性があります.
私はJava、特にGoogle Codeのcrawler4jを使用しています
状況を説明して、解決策を提案してもらえますか?