2

大量の相対 URL を使用するサイトをスクレイピングしようとしています。1 つのアーカイブ ページには多数の個別エントリへのリンクがありますが、URL は「../2011/category/example.html」のように指定されます。

エントリごとに、ページを開いてスクレイピングしたいのですが、それを処理する最も効率的な方法がわかりません。開始 URL を「/」で分割し、最後の項目をポップオフして再度結合し、ベース URL を取得することを考えています。

しかし、それはそのような塊のように思えます。よりクリーンな方法はありますか?

4

1 に答える 1

4

相対 URL から絶対 URL を作成するには、urlparse.urljoin( docs here ) を使用します。

ただし、クロールなどのブラウジング システムを使用している場合はmechanize、最初に絶対 URL をフェッチし、その後でブラウザーに相対 URL をフィードするだけで済みます。ブラウザーは状態を追跡し、前の要求と同じドメインから URL を自動的にフェッチします。

于 2012-10-25T21:37:36.960 に答える