私は自己ホスト型のワードプレスブログを持っていますが、ほぼ予想通り、自分の投稿の完全なコピーを投稿している別のブログがあります(テキスト、ホットリンクされていないが、クローンのサーバーにフェッチされて再アップロードされた画像、内のhtmlレイアウト投稿)数時間の遅延があります。
ただし、自分の投稿に関連するキーワードをGoogleで検索すると、スクレイピングクローンが常に最初に表示されることに腹を立てていることを告白する必要があります。
だから、ここで私は提案を受け付けています、私のサイトがうまくスクレイピングされるのを防ぐ方法を知っていますか?
技術的精度:
- クローンブログは自己ホスト型のようです。私もそうです。私はdebian+webmin +virtualmindediにいます。
- 私のRSSフィードは、「続きを読む」途中ですでにカットされています。ねえ、2001-01-01のような日付を割り当てて投稿を公開し、クローンブログに表示されるかどうかを確認するだけで、RSSが「ねえ、スクレイピングの時間です!」
- 私のログは合法的なトラフィックの中からスクレーパーを見つけることができません。それは識別できないか、合法的なトラフィックの洪水の中で失われています。
- 私はすでにクローンの.comドメインをhtaccess-bannedとiptables-bannedしましたが、それでも私のコンテンツはクローンされています
- クローンWebサイトはリバースプロキシを使用しているため、ホストされている場所と実際のIPをブロックする必要がある場所を追跡できません(ヨーロッパの半分をiptables-ignore-banして、データストレージ機能のIP範囲全体を禁止しない限り) 、しかし私はそれに少し気が進まない!)
- これは手作りではないと確信しています。クローン作成は2年間、毎日必ず実行されています。
- 私の新しい投稿のみが複製され、私のWebサイトの残りの部分は複製されません(サイドバーではなく、WordPressの投稿ではなく、WordPressのページではなく、単一のページではありません)。仕事、ハニーポッティングなし
- 私の投稿に私のウェブサイトの別のページを指す内部リンクが含まれている場合、クローンの投稿は書き換えられず、引き続き自分のウェブサイトを指します。
この問題に関するヘルプと提案が欲しいです。クローンは作成されていませんが、私が元の発行元である間、そのボットへのトラフィックを失っています。