私は NLP のプロジェクトに取り組んでおり、かなりの数のビデオ ゲームのレビューをダウンロードする必要があります。ウェブサイトあたり約 10,000 件です。そこで、各 URL にアクセスして、各ページのレビュー部分と追加のメタデータを引き出すプログラムを作成します。
私はJavaを使用しており、HttpURLConnectionを開いて入力ストリームからテキストを読み取ることを計画していました。次に、接続を閉じて次の接続を開きます。
私の質問はこれです:
1) これが中程度から少量のトラフィックを持つサイトであると仮定しましょう: 通常、通常のユーザーから 1 秒あたり約 1000 のリクエストを受け取ります。私のプログラムがシステムに過度のストレスを与え、他のユーザーのユーザー エクスペリエンスに影響を与える可能性はありますか?
2) 次々と行われるこれらの接続は、何らかの悪意のある攻撃として表示される可能性がありますか?
私は妄想的ですか、それともこれは問題ですか? このデータを取得するためのより良い方法はありますか? 私はいくつかの Web サイトに行くので、サイト管理者と個別に作業するのは不便で、おそらく不可能です。