php - ボットが PHP でファイルダウンロードカウンターをインクリメントするのを止めるにはどうすればよいですか?

Question

ユーザーがリンクをクリックして私の Web サイトでファイルをダウンロードすると、この PHP ファイルに移動し、そのファイルのダウンロードカウンターがインクリメントされ、実際のファイルにヘッダー () リダイレクトされます。ただし、ボットがダウンロードリンクをたどっていると思われるため、ダウンロード数は不正確です。

リンクをたどってはいけないことをボットに知らせるにはどうすればよいですか?
ほとんどのボットを検出する方法はありますか?
ファイルのダウンロード数をカウントするより良い方法はありますか?

score 16 · Accepted Answer

robots.txt: http://www.robotstxt.org/robotstxt.html

すべてのボットがそれを尊重しているわけではありませんが、ほとんどのボットは尊重しています。本当にボット経由のアクセスを防ぎたい場合は、GET ではなく POST へのリンクを作成してください。ボットは POST URL に従いません。(IE では、問題の URL に移動するサイトに返信する小さなフォームを使用してください。)

score 4 · Accepted Answer

Godeke の robots.txt の回答で十分だと思います。ボットをカウンターに絶対に入れられない場合は、いくつかの一般的なロボットユーザーエージェントでクリックをインクリメントしないことと組み合わせて、ロボットファイルを使用することをお勧めします。

どちらの方法も完璧ではありませんが、2 つの方法を組み合わせると、おそらくもう少し厳密になります。それが私だったら、簡単でおそらく最も効果的な解決策であるため、おそらくロボットファイルに固執するでしょう.

score 3 · Accepted Answer

Godeke の言うとおりです。bot がダウンロードしないようにするために最初に行うことは、robots.txt です。

カウントに関しては、これは実際には Web 分析の問題です。www アクセスログを保持し、WebalizerやAWStats (または Webtrends や Urchin などの優れた代替手段) などの分析プログラムで実行していませんか? 簡単で、ユーザーがファイルをダウンロードするときに、PHP、リダイレクト、またはその他のパフォーマンスヒットがないためです。とにかく保持しているApacheログを使用しているだけです。(そしてgrep -c、特定のファイルまたはワイルドカードパターンの「n」ダーティカウントを迅速に提供します。)

ボットによるヒット、または特定のユーザーエージェントやその他の基準を無視するように統計ソフトウェアを構成できます (後で基準を変更した場合は、古いログデータを再処理するだけです)。もちろん、これにはすべての古いログが必要なので、logrotate過去のデータがない状態で開始する必要があります。

score 0 · Accepted Answer

http://www.bad-behavior.ioerror.us/を使用して、robots.txt を尊重しない悪意のあるボットを検出することもできます。

php - ボットが PHP でファイル ダウンロード カウンターをインクリメントするのを止めるにはどうすればよいですか?

4 に答える 4

Related

Reference

php - ボットが PHP でファイルダウンロードカウンターをインクリメントするのを止めるにはどうすればよいですか?