問題タブ [crawler4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - URL をシード URL ドメインのみに制限するcrawler4j
シードのみのドメインに属するように、crawler4j がページにアクセスするようにします。シードには複数のドメインがあります。どうすればいいですか?
シード URL を追加するとします。
- www.google.com
- www.yahoo.com
- www.wikipedia.com
今、私はクロールを開始していますが、私のクローラーが (のようにshouldVisit()
) 上記の 3 つのドメインのページのみにアクセスするようにしたいと考えています。明らかに外部リンクがありますが、クローラーをこれらのドメインのみに制限したいと考えています。サブドメイン、サブフォルダーは問題ありませんが、これらのドメインの外では問題ありません。
crawler4j - crawler4j はシステム出力の膨大なスタックを出力します
私は Crawler4j を使い始め、BasicCrawler Example をしばらくいじりました。BasicCrawler.visit() メソッドからのすべての出力を削除しました。次に、すでに持っていた URL 処理を追加しました。今プログラムを開始すると、実際には必要のない膨大な量の内部処理情報が突然出力されます。以下の例を参照してください
すべての出力を無効にする方法はありますか? または、これの原因を知っている人はいますか?これはコミュニティに問題として投稿すべきバグでしょうか?
御時間ありがとうございます
java - Crawler4j ImageCrawler 文字列引数
私はクローラー4jの例を開始しようとしています: クローラー4j
ImageCrawlController を開始すると、最初のステップ args.length < 3 ですでに失敗します。これは 0 であるためです。args が 3 より大きいことを確認するにはどうすればよいですか?
java - Web ショップのリクエストで別のユーザー エージェント文字列を使用すると、Web ショップの回答の内容が変更されますか?
Web ショップのホストと協力して、定義された Web ショップから価格、画像、製品の説明などの情報を収集するために、多くの製品 EAN を使用する Java クローラー (crawler4j) を作成したいと考えています。これらの情報は、MSSQL データベースに保存する必要があります。ここまでで、Web サイトからの画像のクロールに関するいくつかのテストを成功裏に完了しました。
要点は、webshop がブラウザに送り返す html ページには ean が含まれていないということです。しかし、ウェブショップは新しいリクエストごとに html コードを生成します。
したがって、リクエスト User-Agent-String?? に基づいて別のコンテンツを取得することは基本的に可能です。ユーザー エージェント文字列に「bot」を含めるだけでよいのでしょうか、それとも必要なコンテンツを取得する一般的な方法は何ですか?