2

PHP/CURL (または別のテクノロジー) を利用して Web サイトからコンテンツをダウンロードするための最良の方法について、誰かが推奨する方法があるかどうか知りたいです。現在、curl_multi を使用して一度に 10 個のリクエストを処理しています。

文字通り、毎日約 10 万ページをリクエストする必要がありますが、これは少し面倒です (現在は 16 時間かかります)。私の最初の考えは、複数の仮想マシンをセットアップしてタスクを分割することだけですが、並列化以外に欠けているものがあるのではないかと考えていました。(いつでも問題にもっと多くのマシンを投入できることは知っています)

前もって感謝します!

4

2 に答える 2

2

コンテンツで何をしているのかにもよりますが、キューイングシステムを試してください。

Resqueをお勧めします。Redisを使用してキューを処理します。スピードと複数のリクエストを同時に処理できるように設計されています。またresque-web、優れたホストUIを提供するオプションもあります。

1台のマシンを使用して新しいURLをキューに入れてから、1台または複数のマシンでキューを処理することができます。

その他のオプション:KestrelRabbitMQBeanstalkd

于 2013-03-08T21:54:05.657 に答える
0

Webコンテンツを取得するには、curlまたはfsockopenを使用できます。2つの方法の比較は、fsockopenとcurlのどちらがより良いアプローチであるかを見ることができます。

于 2013-03-08T21:55:09.540 に答える