3

私は自己ホスト型のワードプレスブログを持っていますが、ほぼ予想通り、自分の投稿の完全なコピーを投稿している別のブログがあります(テキスト、ホットリンクされていないが、クローンのサーバーにフェッチされて再アップロードされた画像、内のhtmlレイアウト投稿)数時間の遅延があります。

ただし、自分の投稿に関連するキーワードをGoogleで検索すると、スクレイピングクローンが常に最初に表示されることに腹を立てていることを告白する必要があります。

だから、ここで私は提案を受け付けています、私のサイトがうまくスクレイピングされるのを防ぐ方法を知っていますか?

技術的精度:

  • クローンブログは自己ホスト型のようです。私もそうです。私はdebian+webmin +virtualmindediにいます。
  • 私のRSSフィードは、「続きを読む」途中ですでにカットされています。ねえ、2001-01-01のような日付を割り当てて投稿を公開し、クローンブログに表示されるかどうかを確認するだけで、RSSが「ねえ、スクレイピングの時間です!」
  • 私のログは合法的なトラフィックの中からスクレーパーを見つけることができません。それは識別できないか、合法的なトラフィックの洪水の中で失われています。
  • 私はすでにクローンの.comドメインをhtaccess-bannedとiptables-bannedしましたが、それでも私のコンテンツはクローンされています
  • クローンWebサイトはリバースプロキシを使用しているため、ホストされている場所と実際のIPをブロックする必要がある場所を追跡できません(ヨーロッパの半分をiptables-ignore-banして、データストレージ機能のIP範囲全体を禁止しない限り) 、しかし私はそれに少し気が進まない!)
  • これは手作りではないと確信しています。クローン作成は2年間、毎日必ず実行されています。
  • 私の新しい投稿のみが複製され、私のWebサイトの残りの部分は複製されません(サイドバーではなく、WordPressの投稿ではなく、WordPressのページではなく、単一のページではありません)。仕事、ハニーポッティングなし
  • 私の投稿に私のウェブサイトの別のページを指す内部リンクが含まれている場合、クローンの投稿は書き換えられず、引き続き自分のウェブサイトを指します。

この問題に関するヘルプと提案が欲しいです。クローンは作成されていませんが、私が元の発行元である間、そのボットへのトラフィックを失っています。

4

3 に答える 3

0

最終的には実際にそれらを止めることはできませんが、それらを見つけて混乱させることはできるかもしれません。HTMLコメント、白地に白のテキスト、または邪魔にならない場所でリクエストIPを非表示にしてから、コピーに表示されるIPを確認してください。また、必要に応じて、テキストを16進文字列などに変換して難読化することもできます。これにより、エラーコードを知らない、またはエラーコードのように見せない人にはわかりにくくなり、何に追いつかないようになります。あなたはやっている。

しかし、結局、どれだけあなたを買うのかはわかりません。彼らが本当に注意を怠っている場合は、彼らをシャットダウンして、あなたが彼らにいるという事実に注意を喚起するのではなく、彼らのIPの1つが発生するたびに、彼らにぎこちないものなどを与えることができます。それは楽しいかもしれませんし、サンプルテキストをマルコフ連鎖に入れてジブリッシュジェネレータを作成するのはそれほど難しくありません。

編集:ああ、そしてページがあまり書き直されていない場合、それらがそれを削除しないのであれば、あなたはそれらをあなたにリンクさせるためにいくつかのインラインJSを追加することができるかもしれません。たとえば、サイトにいない場合にのみ表示されるバナーで、記事への元のリンクを示し、人々にそれを読むように勧めます。

于 2012-10-03T13:56:12.630 に答える
0

RSS フィードをシャットダウンしてもよろしいですか? もしそうなら、あなたは次のようなことができます

function fb_disable_feed() {
wp_die( __('No feed available,please visit our <a href="'. get_bloginfo('url') .'">homepage</a>!') );
}
add_action('do_feed', 'fb_disable_feed', 1);
add_action('do_feed_rdf', 'fb_disable_feed', 1);
add_action('do_feed_rss', 'fb_disable_feed', 1);
add_action('do_feed_rss2', 'fb_disable_feed', 1);
add_action('do_feed_atom', 'fb_disable_feed', 1);

つまり、フィード ページに移動すると、wp_die()2 行目にメッセージが返されるだけです。私たちは、ifステートメントを使用してWPソフトウェアの「無料」バージョンに使用しているため、RSSフィードに接続してメインのWebサイトにリンクすることはできません。これは私たちにとってアップセルの機会です。

于 2012-10-03T19:17:52.913 に答える
0

これは少し古い投稿ですが、他の人が投稿を見て同じ質問をした場合に備えて、検討するのに役立つと思いました. ミックスから RSS フィードを排除し、それが手作業によるものではないことを確信しているので、使用しているボットを停止する必要があります。

まず、IPTables でプロキシ サーバーを禁止することをお勧めします。Maxmindから既知のプロキシ サーバー アドレスのリストを取得できます。これにより、自分自身を匿名化する能力が制限されます。

第二に、彼らがこすりにくくすることは素晴らしいことです. これは、いくつかの方法のいずれかで実現できます。一部またはすべてのサイトを javascript でレンダリングできます。他に何もないとしても、少なくともリンクを JavaScript でレンダリングするだけで済みます。これにより、彼らがあなたをこすり落とすのが大幅に難しくなります. または、コンテンツをページ内の iframe 内に配置することもできます。これにより、クロールやスクレイピングがやや難しくなります.

とはいえ、彼らが本当にあなたのコンテンツを欲しがっているなら、彼らはこれらの罠をかなり簡単に通り抜けることができます. 正直なところ、ウェブスクレイパーとの戦いは軍拡競争です。それらを止めるために静的トラップを配置することはできません。代わりに、戦術を継続的に進化させる必要があります。

完全な開示のために、私はDistil Networksの共同創設者であり、アンチスクレイピング ソリューションをサービスとして提供しています。

于 2013-11-07T18:40:19.420 に答える