私たちのサイトではいくつかのボットがページをスクレイピングしているため、後で検索するためにコンテンツにタグを付ける方法を知りたいと思っていました。
ページに独自の HTML コメントを設定しましたが、おそらくスクレイピングされないでしょう。
ページ上のすべてのリンクは JavaScript リンクであり、JS 関数を介してルーティングされます。これにより、残りのコンテンツがスクレイピングされるのを防ぐことができます。
この目的のためにサイト上のリンクにタグを付ける方法はありますか?
私たちのサイトではいくつかのボットがページをスクレイピングしているため、後で検索するためにコンテンツにタグを付ける方法を知りたいと思っていました。
ページに独自の HTML コメントを設定しましたが、おそらくスクレイピングされないでしょう。
ページ上のすべてのリンクは JavaScript リンクであり、JS 関数を介してルーティングされます。これにより、残りのコンテンツがスクレイピングされるのを防ぐことができます。
この目的のためにサイト上のリンクにタグを付ける方法はありますか?
リンクで特定の utm タグを使用すると、これを実現できます。明らかに、非常にユニークなものにする必要があります。UTM タグは広告によく使用されますが、別の目的で使用される可能性があります。それらについて簡単に説明します: http://www.intownwebdesign.com/google-analytics/google-analytics-utm-link-tagging-explained.html
私の意見では、リンクを探すだけで Web スクレイパーを追跡することは依然として困難です。多くの場合、スクレイパーはタグやリンクなどをこすり落とします。そもそもコンテンツがスクレイピングされないようにする方法を検討する必要がありますが、それは私の偏った意見です。
完全な開示のために、私はDistil Networksの共同創設者であるため、人々にボットをブロックするよう促しています。