2

一部の Blogspot サイト (5000 以上のサイト) がオンラインであるか、または PHP、cron、curl を使用して Google によって削除されているかを確認したいと考えています。cronjob を使用して、毎日、毎時間、すべてのサイトをチェックします。id="header-outer"curl がBlogspot サイトの特定の div (例: の div) コンテンツを選択することは知っています。しかし、サーバーに負担がかかるとは思いません。

  • cronjob を使用して、毎時間/毎日、curl で 5000 以上の Blogspot サイトをチェックしています。
  • サイトがまだオンラインの場合は「active」、Google によってサイトが削除されている場合は「removed」のステータスをエコーし​​ます。

curl と cronjob を使用して 5000 以上の Blogspot サイトのステータスを確認する方法はありますか? 小さなアイデアが私を大いに助けるかもしれません。

4

1 に答える 1

0

これが私が思いついたものです。すべての URL をファイルに入れ、おそらく url.txt と呼びます:

(while read url; do if curl -s --retry 3 $url | grep 'header-outer' >/dev/null 2>&1; then echo "$url: active"; else echo "$url: removed"; fi; done) < url.txt

それをcronエントリに入れるか、シェルスクリプトに入れてシェルスクリプトを実行できます。私が完全に理解していないのは、PHP がそれと何をしなければならないか、そして出力形式です。5000 個の URL を処理していて、「有効」または「削除済み」しか表示されない場合、どの URL が有効で削除されているかをどのように知ることができますか? 「アクティブ」と「削除済み」の前に、提供された URL を付けました。

于 2013-10-18T20:22:53.753 に答える