4

サイトのスクレイプを行う場合、curlを使用するか、Pythonのリクエストライブラリを使用するのが望ましいですか?

私は当初、リクエストを使用してユーザーエージェントを明示的に指定することを計画していました。ただし、これを使用すると、「HTTP 429リクエストが多すぎます」というエラーが頻繁に発生しますが、curlを使用すると、それを回避できるようです。

10,000タイトルのメタデータ情報を更新する必要があり、各タイトルの情報を並列化して取得する方法が必要です。

情報を引き出すためにそれぞれを使用することの長所と短所は何ですか?

4

3 に答える 3

3

リクエストを並列化する必要があるため、withを使用する必要がありますrequests(geventを使用している場合grequests、またはeventletをerequests使用している場合)。彼らはいくつかのレート制限を行い、あまりにも短い期間であまりにも多くを要求することを拒否する可能性があるため、あなたはあなたがウェブサイトにアクセスする速度を抑える必要があるかもしれません。

于 2013-01-27T21:18:38.987 に答える
2

リクエストを使用すると、プログラムでそれを行うことができ、よりクリーンな製品が得られるはずです。

curlを使用する場合は、低速のos.system呼び出しを実行しています。

于 2013-01-27T20:56:34.990 に答える
0

面倒が少ないので、いつでも外部プログラムよりも言語版を選びます。

それが実行不可能であることが判明した場合にのみ、私はこれにフォールバックします。人々の時間は機械の時間よりも無限に価値があることを常に考えてください。このようなアプリケーションでの「パフォーマンスの向上」は、いずれにせよネットワーク遅延に圧倒される可能性があります。

于 2013-01-27T20:58:20.520 に答える