問題タブ [crawler4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2282 参照

java - URL をシード URL ドメインのみに制限するcrawler4j

シードのみのドメインに属するように、crawler4j がページにアクセスするようにします。シードには複数のドメインがあります。どうすればいいですか?

シード URL を追加するとします。

  • www.google.com
  • www.yahoo.com
  • www.wikipedia.com

今、私はクロールを開始していますが、私のクローラーが (のようにshouldVisit()) 上記の 3 つのドメインのページのみにアクセスするようにしたいと考えています。明らかに外部リンクがありますが、クローラーをこれらのドメインのみに制限したいと考えています。サブドメイン、サブフォルダーは問題ありませんが、これらのドメインの外では問題ありません。

0 投票する
1 に答える
340 参照

crawler4j - crawler4j はシステム出力の膨大なスタックを出力します

私は Crawler4j を使い始め、BasicCrawler Example をしばらくいじりました。BasicCrawler.visit() メソッドからのすべての出力を削除しました。次に、すでに持っていた URL 処理を追加しました。今プログラムを開始すると、実際には必要のない膨大な量の内部処理情報が突然出力されます。以下の例を参照してください

すべての出力を無効にする方法はありますか? または、これの原因を知っている人はいますか?これはコミュニティに問題として投稿すべきバグでしょうか?

御時間ありがとうございます

0 投票する
1 に答える
157 参照

java - Crawler4j ImageCrawler 文字列引数

私はクローラー4jの例を開始しようとしています: クローラー4j

ImageCrawlController を開始すると、最初のステップ args.length < 3 ですでに失敗します。これは 0 であるためです。args が 3 より大きいことを確認するにはどうすればよいですか?

0 投票する
0 に答える
109 参照

java - Web ショップのリクエストで別のユーザー エージェント文字列を使用すると、Web ショップの回答の内容が変更されますか?

Web ショップのホストと協力して、定義された Web ショップから価格、画像、製品の説明などの情報を収集するために、多くの製品 EAN を使用する Java クローラー (crawler4j) を作成したいと考えています。これらの情報は、MSSQL データベースに保存する必要があります。ここまでで、Web サイトからの画像のクロールに関するいくつかのテストを成功裏に完了しました。

要点は、webshop がブラウザに送り返す html ページには ean が含まれていないということです。しかし、ウェブショップは新しいリクエストごとに html コードを生成します。

したがって、リクエスト User-Agent-String?? に基づいて別のコンテンツを取得することは基本的に可能です。ユーザー エージェント文字列に「bot」を含めるだけでよいのでしょうか、それとも必要なコンテンツを取得する一般的な方法は何ですか?