python - curlとPythonのリクエストの使用

Question

サイトのスクレイプを行う場合、curlを使用するか、Pythonのリクエストライブラリを使用するのが望ましいですか？

私は当初、リクエストを使用してユーザーエージェントを明示的に指定することを計画していました。ただし、これを使用すると、「HTTP 429リクエストが多すぎます」というエラーが頻繁に発生しますが、curlを使用すると、それを回避できるようです。

10,000タイトルのメタデータ情報を更新する必要があり、各タイトルの情報を並列化して取得する方法が必要です。

情報を引き出すためにそれぞれを使用することの長所と短所は何ですか？

score 3 · Accepted Answer

リクエストを並列化する必要があるため、withを使用する必要がありますrequests（geventを使用している場合grequests、またはeventletをerequests使用している場合）。彼らはいくつかのレート制限を行い、あまりにも短い期間であまりにも多くを要求することを拒否する可能性があるため、あなたはあなたがウェブサイトにアクセスする速度を抑える必要があるかもしれません。

score 2 · Accepted Answer

リクエストを使用すると、プログラムでそれを行うことができ、よりクリーンな製品が得られるはずです。

curlを使用する場合は、低速のos.system呼び出しを実行しています。

score 0 · Accepted Answer

面倒が少ないので、いつでも外部プログラムよりも言語版を選びます。

それが実行不可能であることが判明した場合にのみ、私はこれにフォールバックします。人々の時間は機械の時間よりも無限に価値があることを常に考えてください。このようなアプリケーションでの「パフォーマンスの向上」は、いずれにせよネットワーク遅延に圧倒される可能性があります。

python - curlとPythonのリクエストの使用

3 に答える 3

Related

Reference