web-scraping - ボットによってスクレイピングされないように Web ページを作成するにはどうすればよいですか?

Question

この質問は、ここでの回答から発展しました。

したがって、私の質問は、標準的なスクレーパーを無効にするためにどのような手順を実行できるかということです。

score 1 · Accepted Answer

CAPTCHAを使用する
トラフィックを分析する（ページが要求される場所と頻度）
写真と混合したテキストを表示する
より多くのクライアントデータ処理を使用する（JavaScript、Java、Flash）

score 1 · Accepted Answer

robots.txt、robots metaタグ、およびより多くのjavascriptの使用に関するこれまでのすべての言及に加えて、私が知っている最も確実な方法の1つは、制限されたコンテンツをユーザーログインの背後に置くことです。これにより、専用のボットを除くすべてが制限されます。ユーザーログインに強力なキャプチャ（ reCAPTCHAなど）を追加すると、専用のボットもブロックされます。

サイトがクライアントのIDを確認しようとしている場合（つまり、ボットであるかどうかを含む）、それがユーザーログインの目的です。:)

奇妙な活動が検出された場合、ユーザーログインを無効にすることもできます。

score 1 · Accepted Answer

あなたの質問のキーワードは「標準的な」スケーパーです。

ボットは通常の訪問者になりすます可能性があるため、考えられるすべてのボットがサイトをスクレイピングするのを防ぐ方法はありません。

「良い」ボットの場合、bot がコンテンツのインデックスを作成したり、リンクをたどったりできるかどうかを指定するrobots.txtまたはMETA タグの一方または両方:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

「悪い」ものについては、それらを一度キャッチして、IP、リクエスト/リファラーヘッダーなどの組み合わせでブロックする必要があります.

score 0 · Accepted Answer

サーバー側でリクエストを処理できる場合は、ユーザーエージェント文字列を分析し、スクレイパーを検出した場合に 403 を返すことができます。これは絶対確実ではありません。悪意のあるスクレイパーは、標準のブラウザーユーザーエージェントを使用してコードをだますことができます。偽陽性は、実際のユーザーに対してサイトを拒否します。ページへの検索エンジンのアクセスを拒否することになる場合があります。

しかし、「標準のスクレーパー」を特定できれば、これは robots タグを尊重しないスクレーパーへのアクセスを制御するための別のツールになります。

score 0 · Accepted Answer

のようなメタタグを配置するだけで

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

これは、あなたのサイトをインデックスに登録しない可能性があることをボットに伝えます。

web-scraping - ボットによってスクレイピングされないように Web ページを作成するにはどうすればよいですか?

5 に答える 5

Related

Reference