Python(pycurl)でcurlを使ってサイトコンテンツをダウンロードしたいです。しかし、それらのサイトのテキスト全体がサイトの一部だけであることは望んでいません。全文ダウンロードにかかる時間を短縮したい。ありがとうございました。
2 に答える
2
関連する ヘッダーを HTTP リクエストに設定する必要があります。これを行う方法については、この質問を参照してください。pycurl
注: これは、次の場合にのみ機能します。
- 必要なデータが結果のどこにあるか、データ オフセット (バイト単位) を知る
- ウェブサーバーはこれをサポートしています
于 2011-06-21T07:02:24.197 に答える
0
通常、ページの読み込みの遅延は、HTML の実際のダウンロードにはありません。html は Unicode テキストにすぎないため、多くの場合、非常に高速です。ページに膨大な量の実際のテキストとマークアップがない限り、あまり節約することはできません。さらに、ページの実際のコンテンツを取得するには、<head>
とにかく全体をダウンロードする必要があります...
個人的には、これに非同期的にアプローチします。Twistedは、このタイプのアプローチに対するより一般的な提案の 1 つです。
于 2011-06-21T07:14:45.433 に答える