getdata.php
いくつかの有用な情報をtxtファイルまたはデータベースに保存するよりも、cUrlによって特定のWebサイトページのコンテンツを取得するWebスクレイピングPHPページ()を作成したとしましょう。
の擬似コードgetdata.php
、
min = get latest search id from database
max = 1.000.000 (yes one million different pages)
while (min < max) {
url = "http://www.website.com/page.php?id=".$min
content = getContentFromURL(url)
saveUsefulInfoToDb(content)
min++
set latest search id as min in database
}
それは大丈夫です、プロセスは、
getdata.php
ブラウザで開く- 待って
- 約100万ページが削られるので、まだ待ってください。
- 待って
- そして最後にタイムアウトを要求します。
- 失敗
したがって、問題は、このプロセスを合理的にする方法がわからないことです。ブラウザでページを開き、URLのスクレイピングが完了するのを待つのは、本当に悪い習慣だと思います。
getdata.phpをcronのようにバックグラウンドで実行可能にするにはどうすればよいですか?
それを行うための最良の方法は何ですか?
ありがとう。