python - pycurl でのテキストダウンロードコンテンツの制限

Question

Python(pycurl)でcurlを使ってサイトコンテンツをダウンロードしたいです。しかし、それらのサイトのテキスト全体がサイトの一部だけであることは望んでいません。全文ダウンロードにかかる時間を短縮したい。ありがとうございました。

score 2 · Accepted Answer

関連するヘッダーを HTTP リクエストに設定する必要があります。これを行う方法については、この質問を参照してください。pycurl

注: これは、次の場合にのみ機能します。

必要なデータが結果のどこにあるか、データオフセット (バイト単位) を知る
ウェブサーバーはこれをサポートしています

score 0 · Accepted Answer

通常、ページの読み込みの遅延は、HTML の実際のダウンロードにはありません。html は Unicode テキストにすぎないため、多くの場合、非常に高速です。ページに膨大な量の実際のテキストとマークアップがない限り、あまり節約することはできません。さらに、ページの実際のコンテンツを取得するには、<head>とにかく全体をダウンロードする必要があります...

個人的には、これに非同期的にアプローチします。Twistedは、このタイプのアプローチに対するより一般的な提案の 1 つです。

python - pycurl でのテキスト ダウンロード コンテンツの制限

2 に答える 2

Related

python - pycurl でのテキストダウンロードコンテンツの制限