この質問は、ここでの回答から発展しました。
したがって、私の質問は、標準的なスクレーパーを無効にするためにどのような手順を実行できるかということです。
robots.txt、robots metaタグ、およびより多くのjavascriptの使用に関するこれまでのすべての言及に加えて、私が知っている最も確実な方法の1つは、制限されたコンテンツをユーザーログインの背後に置くことです。これにより、専用のボットを除くすべてが制限されます。ユーザーログインに強力なキャプチャ( reCAPTCHAなど)を追加すると、専用のボットもブロックされます。
サイトがクライアントのIDを確認しようとしている場合(つまり、ボットであるかどうかを含む)、それがユーザーログインの目的です。:)
奇妙な活動が検出された場合、ユーザーログインを無効にすることもできます。
あなたの質問のキーワードは「標準的な」スケーパーです。
ボットは通常の訪問者になりすます可能性があるため、考えられるすべてのボットがサイトをスクレイピングするのを防ぐ方法はありません。
「良い」ボットの場合、bot がコンテンツのインデックスを作成したり、リンクをたどったりできるかどうかを指定するrobots.txtまたはMETA タグの一方または両方:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
「悪い」ものについては、それらを一度キャッチして、IP、リクエスト/リファラーヘッダーなどの組み合わせでブロックする必要があります.
サーバー側でリクエストを処理できる場合は、ユーザー エージェント文字列を分析し、スクレイパーを検出した場合に 403 を返すことができます。これは絶対確実ではありません。悪意のあるスクレイパーは、標準のブラウザー ユーザー エージェントを使用してコードをだますことができます。偽陽性は、実際のユーザーに対してサイトを拒否します。ページへの検索エンジンのアクセスを拒否することになる場合があります。
しかし、「標準のスクレーパー」を特定できれば、これは robots タグを尊重しないスクレーパーへのアクセスを制御するための別のツールになります。
のようなメタタグを配置するだけで
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
これは、あなたのサイトをインデックスに登録しない可能性があることをボットに伝えます。