Web サイトから Gbs のデータをダウンロードするタスクがあります。データは .gz ファイルの形式で、各ファイルのサイズは 45 MB です。
ファイルを取得する簡単な方法は、「wget -r -np -A files url」を使用することです。これにより、再帰的な形式でデータがダウンロードされ、Web サイトがミラーリングされます。ダウンロード速度は非常に高く、4 mb/秒です。
しかし、ただ遊んでみるために、python を使用して urlparser を構築していました。
Python の urlretrieve によるダウンロードは非常に遅く、wget の 4 倍遅くなる可能性があります。ダウンロード速度は 500kb/秒です。href タグの解析には HTMLParser を使用します。
なぜこれが起こっているのかわかりません。このための設定はありますか。
ありがとう