php - ウェブスクレイピングページを継続的に機能させる方法

Question

getdata.phpいくつかの有用な情報をtxtファイルまたはデータベースに保存するよりも、cUrlによって特定のWebサイトページのコンテンツを取得するWebスクレイピングPHPページ（）を作成したとしましょう。

の擬似コードgetdata.php、

min = get latest search id from database
max = 1.000.000 (yes one million different pages)

while (min < max) {

  url = "http://www.website.com/page.php?id=".$min
  content = getContentFromURL(url)
  saveUsefulInfoToDb(content)
  min++
  set latest search id as min in database
}

それは大丈夫です、プロセスは、

getdata.phpブラウザで開く
待って
約100万ページが削られるので、まだ待ってください。
待って
そして最後にタイムアウトを要求します。
失敗

したがって、問題は、このプロセスを合理的にする方法がわからないことです。ブラウザでページを開き、URLのスクレイピングが完了するのを待つのは、本当に悪い習慣だと思います。

getdata.phpをcronのようにバックグラウンドで実行可能にするにはどうすればよいですか？

それを行うための最良の方法は何ですか？

ありがとう。

score 3 · Accepted Answer

@hackartistsの回答に加えて、ブラウザからこのPHPページをまったく呼び出さないように追加します。代わりに、コマンドラインから呼び出します

http://www.php.net/manual/en/features.commandline.introduction.php

ブラウザで getdata.php を開く

する必要があります

cron を使用してコマンドラインから getdata.php を実行するようにスケジュールします。

さらに、成功または失敗をログに記録して、Web スクレイピングジョブがいつ失敗したかを知るために、ログファイルの監視を設定できるようにします (結局のところ、毎日ブラウザーの前に座って自分で監視したくはありません)。

score 2 · Accepted Answer

コードの先頭で使用

set_time_limit(0);
ignore_user_abort(true);

次に、cronを使用して、毎日または必要なときにいつでも起動します。これをWebページではなく、バックグラウンドプロセスにする必要があります。これらの2行により、Webページまたはcmd行スクリプトとして無期限に実行できます。Webページとして作成したい場合でも、cronを使用して次のような行で「起動」することができます。

0 0 * * * /usr/bin/curl "http://yoursite.com/getdata.php" >> "/var/www/errors.log"

私はこれを何度も行ってきたので、少しアドバイスがあります。ログ関数を作成してファイルに出力し、実行中にファイルが何をしているかを確認できるようにします。そうしないと、可視性がなくなり、phpファイルにキルスイッチをプログラムできなくなります。 unix topを使用したり、apacheを再起動したりせずに、実行を停止するように指示できます。キルタイムにハードコーディングして、特定の時間後に1日より長く実行され、2番目のインスタンスが起動し、一度に複数のインスタンスが実行されないようにすると停止することをお勧めします。

php - ウェブスクレイピングページを継続的に機能させる方法

2 に答える 2

Related

Reference