0

これはおそらく漠然とした質問ですが、一部のボットが私のサイトをクロールしていて、それを非常にうまく行っていないようです。アプリケーションのjsファイルからIDを推測し、それらをURLに入れているようです。例:

Couldn't find Post with id=keypress

さらに奇妙なことに、HTTPリファラーはapplication.jsとしてリストされています。

誰かがこれを以前に経験したことがありますか?これらのクローラーを停止する方法について何かアイデアはありますか?

4

1 に答える 1

0

正規のクローラーである場合は、robot.txtファイルをルートドメインディレクトリに配置することで停止できます-http ://en.wikipedia.org/wiki/Robots_exclusion_standard

robots.txtファイルに次のテキストを含めます。

User-agent: *
Disallow: /YOUR_PATH_TO_FILE/application.js

このタグをページヘッダーに追加することもできます。

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

それが悪意のあるクローラーである場合、これはもちろんそれを止めません。robots.txtを尊重しないクローラーに使用できる方法は他にもありますが、使用しているWebサーバーによって異なります。

于 2012-08-16T18:29:12.247 に答える