ruby-on-rails - RailsとJavascript：奇妙な404 ....おそらくクローラー？

Question

これはおそらく漠然とした質問ですが、一部のボットが私のサイトをクロールしていて、それを非常にうまく行っていないようです。アプリケーションのjsファイルからIDを推測し、それらをURLに入れているようです。例：

Couldn't find Post with id=keypress

さらに奇妙なことに、HTTPリファラーはapplication.jsとしてリストされています。

誰かがこれを以前に経験したことがありますか？これらのクローラーを停止する方法について何かアイデアはありますか？

score 0 · Accepted Answer

正規のクローラーである場合は、robot.txtファイルをルートドメインディレクトリに配置することで停止できます-http ://en.wikipedia.org/wiki/Robots_exclusion_standard

robots.txtファイルに次のテキストを含めます。

User-agent: *
Disallow: /YOUR_PATH_TO_FILE/application.js

このタグをページヘッダーに追加することもできます。

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

それが悪意のあるクローラーである場合、これはもちろんそれを止めません。robots.txtを尊重しないクローラーに使用できる方法は他にもありますが、使用しているWebサーバーによって異なります。

1 に答える 1