価格比較サイトを作りました。オファーのリンクをクリックすると、ショップから 1 ドルがもらえます。
問題は、Web サイト全体をクロールするクローラーです。したがって、彼らは「リンクをクリック」します。クリックしないようにするにはどうすればよいですか? Javascript は悪い解決策です。
ありがとうございました!
価格比較サイトを作りました。オファーのリンクをクリックすると、ショップから 1 ドルがもらえます。
問題は、Web サイト全体をクロールするクローラーです。したがって、彼らは「リンクをクリック」します。クリックしないようにするにはどうすればよいですか? Javascript は悪い解決策です。
ありがとうございました!
私はこれについて間違った方法で考えてきました。
@yttriuszzerbus が上で言ったことすべてに同意します。ファイルに robots.txt を追加し、リンクに「rel=nofollow」を追加し、知っているユーザー エージェントをブロックします。
したがって、リンクをクリックしようとしている人がいる場合、それは生きている人か、クリックしたくない行儀の悪いボットです。
では、お店のサイトへのリンクを作成するために何か変なことをしてみませんか? サイトをインデックスに登録できなくするため、通常、これを行うことは決してありません。しかし、それは問題ではありません。行儀の良いすべてのボットは、robots.txt ファイルに従うため、これらのリンクをインデックス化するわけではありません。
そこにタグを持たないようなことを考えてい<a href=
ます-代わりに、スタイルシートを使用してフォントに下線を追加するリンクのテキストを生成するため、通常のユーザーへのリンクのように見えます。次に、JavaScript onClick 関数を使用します。ユーザーがクリックするとリダイレクトされます。ボットはそれをリンクとして認識せず、ユーザーはそれに気付かない.
あなたは出来る:
「rel=nofollow」を使用して、リンクをたどらないようにクローラーに指示します。
特定のユーザーエージェント文字列をブロックする
robots.txtを使用して、サイトの拡散を除外します。
残念ながら、上記のいずれも、動作の悪いクローラーを除外しません。クローラーを実際に防ぐ唯一の解決策は、ある種のJavaScriptリンクまたはCAPTCHAです。
I also have similar project. My problem was solved only by block certain user-agent strings.
Another problem is that I don't know every "bad" user-agent's, so when a new crawler enters the site, I add it to the blacklist and retroactively remove its visits from statistics.
"rel=nofollow" and robots.txt not work at all for me.