-2

開発中のJavaアプリに問題があります。HtmlCleaner2.2ライブラリ(Webハーベストプロジェクトで使用されているライブラリ)を使用しており、ページのソースを取得するのに問題はありません。

私の問題は、サイトを再帰的に閲覧して、カテゴリと製品のツリーを子として取得したいときに始まります。スクリプトがページにアクセスするたびに、サイトにアクセスしたユーザーとしてカウントされると思います。したがって、15または20のカテゴリまたは製品ページにアクセスすると、Webサイトのファイアウォールが約1時間IPをブロックします。

この問題で2つの解決策が思い浮かびます。まず、プロキシを使用します。禁止されることはなく、スレッドを使用してより高速にダウンロードできます。次に、1つの接続のみを開きます。プロキシを使用するのは悪い考えだと思うので、簡単なコードで、禁止されることなくWebサイトの約300000の製品に再帰的にアクセスするための最良の方法は何ですか?最速でシンプル

ソースを文字列に入れると、訪問済みとしてカウントするのに十分です。私は最善の方法についての議論を望んでおらず、正当な理由があるだけです。

明確化:これは学校の仕事です、私はこれから利益を得ていません、そして私はサイトにとってより害が少ないようにしようとしています

4

1 に答える 1

2

あなたのスパイダリングがあなたがスクレイピングしているサイトに正当なビジネス価値を提供する場合、あなたはウェブサイトの所有者に連絡して、データフィードまたは彼らの禁止アルゴリズムの除外を求めることができます(結局のところ、人々が彼らの製品を将来にさらすことはしばしば有益ですバイヤー)。

アップデート

これは学校の課題であるというあなたの声明に基づいて、教育のためにトラフィックが殺到することをいとわないWebサイトを見つけるために教師に支援を求めるか、Webサイトの所有者に連絡して、あなたが何をしているのかを説明し、質問してください。許可を得るために。

于 2012-04-05T17:52:42.083 に答える