私の状況を説明させてください。
1,000 万ページの URL のリストがあります。これらのページをスクレイピングして、生の html としてデータベースに保存します。
今のところ、私はそれらのページを破棄するために CURL を使用しています。にアクセスするたびにindex.php
、1 ページの URL が破棄され、データベースに保存されます。
今思えばindex.php
ブラウザで1000万回アクセスするのは無理だと思います。
使えdo while loop
ました。しかし、そのタスクを完了するには、とてつもなく時間がかかると思います。そしてメモリの問題も。
それで、誰かが私を正しい方向に向けて、この作業を楽にすることができます.
私は Linux VPS サーバー1GB RAM
と WHM/cPanel を所有しています。
PS:CRONを検討しました。しかし、cronで時間を定義する必要があります。cron を使用して 1 分ごとにスクリプトを実行しても、完了することしかできません1440 urls in 24 hours
。atleast 100,000
では、cron を使用して 1 日で URL を完成させるアイデアを教えてもらえますか?