java - プログラムで一連の Web ページに接続し、ソース HTML を解析して、システムにストレスをかけたり危険信号を発したりできますか?

Question

私は NLP のプロジェクトに取り組んでおり、かなりの数のビデオゲームのレビューをダウンロードする必要があります。ウェブサイトあたり約 10,000 件です。そこで、各 URL にアクセスして、各ページのレビュー部分と追加のメタデータを引き出すプログラムを作成します。

私はJavaを使用しており、HttpURLConnectionを開いて入力ストリームからテキストを読み取ることを計画していました。次に、接続を閉じて次の接続を開きます。

私の質問はこれです：

1) これが中程度から少量のトラフィックを持つサイトであると仮定しましょう: 通常、通常のユーザーから 1 秒あたり約 1000 のリクエストを受け取ります。私のプログラムがシステムに過度のストレスを与え、他のユーザーのユーザーエクスペリエンスに影響を与える可能性はありますか?

2) 次々と行われるこれらの接続は、何らかの悪意のある攻撃として表示される可能性がありますか?

私は妄想的ですか、それともこれは問題ですか? このデータを取得するためのより良い方法はありますか? 私はいくつかの Web サイトに行くので、サイト管理者と個別に作業するのは不便で、おそらく不可能です。

score 2 · Accepted Answer

Webブラウザーを模倣し、人間の速度でテキストを抽出する場合（つまり、テキストを読んでいない場合でも、人間が次のページに「クリックスルー」するのに通常は数秒かかります）、サーバーはそれを実行できません。本当にクライアントが何であるかを教えてください。

言い換えれば、スラーピングを数秒あたり1ページに絞るだけで、問題はありません。

あなたが持つべき他の懸念は合法性です。これらのレビューはあなたが書いたものではなく、派生物を作成する許可がないものだと思います。あなたが個人的な使用のためにそれらを丸呑みしているだけなら、それは大丈夫です。あなたが何か（派生物）を作成するためにそれらを丸呑みしているなら、あなたは著作権を破っています。

score 1 · Accepted Answer

HTTPリクエストがどのように機能するかを誤解していると思います。あなたはページを要求し、それを取得します...一度に1行ずつストリームを読んでいるという事実は、HTTPリクエストとは関係がなく、サイトは一度に1ページを提供することを完全に喜んでいます。悪意があるようには見えません（ページを読んでいるのは1人のユーザーだけなので...完全に正常な動作です）。あなたはあなたの計画を進めるのに100％大丈夫です（あなたがそれを説明した通りなら）。

java - プログラムで一連の Web ページに接続し、ソース HTML を解析して、システムにストレスをかけたり危険信号を発したりできますか?

2 に答える 2

Related

Reference