Web ショップのホストと協力して、定義された Web ショップから価格、画像、製品の説明などの情報を収集するために、多くの製品 EAN を使用する Java クローラー (crawler4j) を作成したいと考えています。これらの情報は、MSSQL データベースに保存する必要があります。ここまでで、Web サイトからの画像のクロールに関するいくつかのテストを成功裏に完了しました。
要点は、webshop がブラウザに送り返す html ページには ean が含まれていないということです。しかし、ウェブショップは新しいリクエストごとに html コードを生成します。
したがって、リクエスト User-Agent-String?? に基づいて別のコンテンツを取得することは基本的に可能です。ユーザー エージェント文字列に「bot」を含めるだけでよいのでしょうか、それとも必要なコンテンツを取得する一般的な方法は何ですか?