0

Webスクレイピングをしようとしていますが、相対URLとルートURLの結合に問題があります

たとえば、ルート URL は次のとおりです。http://www.jmlr.org/proceedings/papers/v2

相対 URL は次のとおりです。../v2/meila07a/meila07a.pdf

urlparse で urljoin を使用すると、結果が奇妙になります:

http://www.jmlr.org/proceedings/v2/meila07a/meila07a.pdf

これは有効なリンクではありません。誰でもそれを手伝ってもらえますか?

4

1 に答える 1

0

2 つのドット ( ..) は、階層内で 1 回戻り、2 番目のリンクを に変更する./v2/meila07a/meila07a.pdfと、正常に機能することを意味します。

または、ルートを に変更することもできます。http://www.jmlr.org/proceedings/papers/v2/この変更によりv2、ルートが適切なディレクトリに設定されていないため、最後に破棄されなくなります。

于 2015-06-04T23:01:07.510 に答える