開発中のJavaアプリに問題があります。HtmlCleaner2.2ライブラリ(Webハーベストプロジェクトで使用されているライブラリ)を使用しており、ページのソースを取得するのに問題はありません。
私の問題は、サイトを再帰的に閲覧して、カテゴリと製品のツリーを子として取得したいときに始まります。スクリプトがページにアクセスするたびに、サイトにアクセスしたユーザーとしてカウントされると思います。したがって、15または20のカテゴリまたは製品ページにアクセスすると、Webサイトのファイアウォールが約1時間IPをブロックします。
この問題で2つの解決策が思い浮かびます。まず、プロキシを使用します。禁止されることはなく、スレッドを使用してより高速にダウンロードできます。次に、1つの接続のみを開きます。プロキシを使用するのは悪い考えだと思うので、簡単なコードで、禁止されることなくWebサイトの約300000の製品に再帰的にアクセスするための最良の方法は何ですか?最速でシンプル
ソースを文字列に入れると、訪問済みとしてカウントするのに十分です。私は最善の方法についての議論を望んでおらず、正当な理由があるだけです。
明確化:これは学校の仕事です、私はこれから利益を得ていません、そして私はサイトにとってより害が少ないようにしようとしています