問題タブ [crawler4j]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

175 問題

0 投票する

2 に答える

2282 参照

java - URL をシード URL ドメインのみに制限するcrawler4j

シードのみのドメインに属するように、crawler4j がページにアクセスするようにします。シードには複数のドメインがあります。どうすればいいですか？

シード URL を追加するとします。

www.google.com
www.yahoo.com
www.wikipedia.com

今、私はクロールを開始していますが、私のクローラーが (のようにshouldVisit()) 上記の 3 つのドメインのページのみにアクセスするようにしたいと考えています。明らかに外部リンクがありますが、クローラーをこれらのドメインのみに制限したいと考えています。サブドメイン、サブフォルダーは問題ありませんが、これらのドメインの外では問題ありません。

2013-11-09T11:18:21.480

0 投票する

1 に答える

340 参照

crawler4j - crawler4j はシステム出力の膨大なスタックを出力します

私は Crawler4j を使い始め、BasicCrawler Example をしばらくいじりました。BasicCrawler.visit() メソッドからのすべての出力を削除しました。次に、すでに持っていた URL 処理を追加しました。今プログラムを開始すると、実際には必要のない膨大な量の内部処理情報が突然出力されます。以下の例を参照してください

すべての出力を無効にする方法はありますか? または、これの原因を知っている人はいますか？これはコミュニティに問題として投稿すべきバグでしょうか?

御時間ありがとうございます

crawler4j

2013-11-20T11:36:10.397

0 投票する

1 に答える

157 参照

java - Crawler4j ImageCrawler 文字列引数

私はクローラー4jの例を開始しようとしています：クローラー4j

ImageCrawlController を開始すると、最初のステップ args.length < 3 ですでに失敗します。これは 0 であるためです。args が 3 より大きいことを確認するにはどうすればよいですか?

java web-crawler crawler4j

2013-11-25T19:33:10.660

0 投票する

0 に答える

109 参照

java - Web ショップのリクエストで別のユーザーエージェント文字列を使用すると、Web ショップの回答の内容が変更されますか?

Web ショップのホストと協力して、定義された Web ショップから価格、画像、製品の説明などの情報を収集するために、多くの製品 EAN を使用する Java クローラー (crawler4j) を作成したいと考えています。これらの情報は、MSSQL データベースに保存する必要があります。ここまでで、Web サイトからの画像のクロールに関するいくつかのテストを成功裏に完了しました。

要点は、webshop がブラウザに送り返す html ページには ean が含まれていないということです。しかし、ウェブショップは新しいリクエストごとに html コードを生成します。

したがって、リクエスト User-Agent-String?? に基づいて別のコンテンツを取得することは基本的に可能です。ユーザーエージェント文字列に「bot」を含めるだけでよいのでしょうか、それとも必要なコンテンツを取得する一般的な方法は何ですか?

java web-crawler user-agent webshop crawler4j

2013-12-30T12:15:32.850

1 2 3 4 5 6 7 8 9 10

問題タブ [crawler4j]

java - URL をシード URL ドメインのみに制限するcrawler4j

crawler4j - crawler4j はシステム出力の膨大なスタックを出力します

java - Crawler4j ImageCrawler 文字列引数

java - Web ショップのリクエストで別のユーザー エージェント文字列を使用すると、Web ショップの回答の内容が変更されますか?

Reference

java - Web ショップのリクエストで別のユーザーエージェント文字列を使用すると、Web ショップの回答の内容が変更されますか?