0

Web サイトから約 14000 の Web ページからデータを取得するため、おそらく半日かかるスクリプトを作成しています。

それが進行しているかどうかを調べるために、mac os シェルを使用して、その実行、つまりスクレイピングされた各ページへの発信接続を観察する方法はありますか?

役立つ場合は、curl を使用してページのコンテンツを取得しています。

どうもありがとう!チャールズ

EDIT スクリプトは php で書かれており、localhost から実行されます。

4

2 に答える 2

0

カスタムスクリプトを作成するときは、ある種のステータスをstdoutに出力すると非常に便利です。

これは、 http://www.php.net/manual/en/function.sprintf.phpを使用して統一された方法で実行できます。printf

stdoutに何を記録するかは、表示する必要のある情報によって異なります。おそらくcurlリクエストの場合、URL、応答コード、開始時刻と終了時刻をログに記録します。それは本当にあなた次第です、ただあなたがそれのステータス/進捗状況を確認できることを確認してください。

printf('%40s | %5s', 'URL', 'Status Code');
printf('%40s | %5s', $the_url, $status_code);
于 2012-06-10T12:36:28.010 に答える
0

これを Web ブラウザ経由で実行している場合、PHP の実行が完了するまで出力は表示されません。ただし、file_put_contents()見ることができるログファイルにデータを追加できます。

コード行の例は次のとおりfile_put_contents("file name.txt", "\nWebsite abc was successfully scraped", FILE_APPEND);です。FILE_APPEND フラグが必要です。そうしないと、PHP が毎回ファイルを上書きしてしまいます。

php.net リファレンス

于 2012-06-10T12:42:42.270 に答える