java - スパイダーが特定のGETパラメーターを使用してページにアクセスするのを防ぐことはできますか？

Question

オプションでIDをGETパラメーターとして受け取ることができるページがあります。無効なIDが指定された場合、ページはエラーをスローし、誰かがページに誤ってアクセスしているという通知を送信します。火に燃料を追加すると、IDはしばらくの間有効になり、その後期限切れになる可能性があります。

検索エンジンボットが古い期限切れのIDでページにアクセスするという問題が発生しています。これは、スパイダーが発生するたびに「誤検知」アラートが大量に発生することを意味します。ボットに先に進んでページをクロールするように指示する方法が欲しいのですが、GETパラメーターは使用せず、パラメーターのないページにインデックスを付けるだけです。これは、robots.txtファイルなどを使用してリモートで実行することもできますか？

注：これを解決する最善の方法はページの動作を変更することであり、実際には数週間で発生します。当面の間、解決策を探しています。

score 1 · Accepted Answer

_GET をチェックする if ステートメント内に、次の HTML を配置します。

<meta name="robots" content="noindex, nofollow">
<meta name="googlebot" content="noindex, nofollow">

score 1 · Accepted Answer

robots.txt で次のように記述して、スパイダーが URL の特定の部分を無視するように提案できます。

User-agent: *
Disallow: *id=

明確にするために編集:これにより、スパイダーは GET 文字列内の id=blah を含む URL を無視するようになります。id= 部分を魔法のように「取り除く」わけではありません。しかし、「?id=」パラメーターのない通常の URL は、インデックスを作成するデータを返すため、これは事実上必要なことです。

java - スパイダーが特定のGETパラメーターを使用してページにアクセスするのを防ぐことはできますか？

2 に答える 2

Related

Reference