これはおそらく漠然とした質問ですが、一部のボットが私のサイトをクロールしていて、それを非常にうまく行っていないようです。アプリケーションのjsファイルからIDを推測し、それらをURLに入れているようです。例:
Couldn't find Post with id=keypress
さらに奇妙なことに、HTTPリファラーはapplication.jsとしてリストされています。
誰かがこれを以前に経験したことがありますか?これらのクローラーを停止する方法について何かアイデアはありますか?
これはおそらく漠然とした質問ですが、一部のボットが私のサイトをクロールしていて、それを非常にうまく行っていないようです。アプリケーションのjsファイルからIDを推測し、それらをURLに入れているようです。例:
Couldn't find Post with id=keypress
さらに奇妙なことに、HTTPリファラーはapplication.jsとしてリストされています。
誰かがこれを以前に経験したことがありますか?これらのクローラーを停止する方法について何かアイデアはありますか?
正規のクローラーである場合は、robot.txtファイルをルートドメインディレクトリに配置することで停止できます-http ://en.wikipedia.org/wiki/Robots_exclusion_standard
robots.txtファイルに次のテキストを含めます。
User-agent: *
Disallow: /YOUR_PATH_TO_FILE/application.js
このタグをページヘッダーに追加することもできます。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
それが悪意のあるクローラーである場合、これはもちろんそれを止めません。robots.txtを尊重しないクローラーに使用できる方法は他にもありますが、使用しているWebサーバーによって異なります。