状況:
- ユーザー名/パスワードで保護されたコンテンツを含むサイト (試用/テスト ユーザーになる可能性があるため、すべてが制御されるわけではありません)
- ユーザー名/パスワードの制限により、通常の検索エンジンではアクセスできません。
- 悪意のあるユーザーは引き続きログインして、セッション Cookie を「wget -r」などに渡すことができます。
問題は、そのようなアクティビティを監視し、それに対応するための最良のソリューションは何かということです (サイトのポリシーがクロール禁止/スクレイピングを許可していないことを考慮すると)。
いくつかのオプションを考えることができます:
- トラフィック監視ソリューションをセットアップして、特定のユーザー/IP のリクエスト数を制限します。
- 最初のポイントに関連: 一部のユーザー エージェントを自動的にブロックする
- (Evil :)) アクセス時にユーザーをログアウトさせ、アカウントを無効にする隠しリンクを設定します。(おそらく、通常のユーザーはクリックするためにそれを見ないため、これにアクセスすることはありませんが、ボットはすべてのリンクをクロールします。)
ポイント1については、すでに実装されている優れたソリューションを知っていますか? 経験はありますか?問題の 1 つは、非常にアクティブだが人間のユーザーの場合、誤検出が発生する可能性があることです。
ポイント 3: これは本当に悪いことだと思いますか? または、それに関する問題の可能性はありますか?
その他のご提案も承ります。