1

これらのモジュールが何に使用されるのか正確にはわかりません。彼らはそれぞれの URL をそのコンポーネントに分割していると思いますが、なぜそれが役立つのでしょうか、または urlparse をいつ使用するかの例は何ですか?

4

1 に答える 1

4

urlparseパラメータが必要な場合にのみ使用してください。パラメータが必要な理由を以下で説明しました。

参照

urllib.parse. urlsplit (urlstring、scheme=''、allow_fragments=True)

これは urlparse() に似ていますが、パラメータを URL から分割しません。URL のパス部分の各セグメントにパラメータを適用できる最新の URL 構文 ( RFC 2396を参照) が必要な場合は、通常、urlparse() の代わりにこれを使用する必要があります。

ホスト名は、変数に格納して後で使用したり、パラメーターを追加したり、ホスト名にクエリを追加して、スクレイピング中に必要な Web ページを取得したりするのに常に役立ちます。

パラメータについて:

参考: RFC2396 によると、url のパラメーター

現在のクライアント アプリケーションを徹底的にテストした結果、展開されたシステムの大部分が「;」記号を使用していないことがわかりました。文字を使用して末尾のパラメーター情報を示し、パス セグメントにセミコロンが存在しても、そのセグメントの相対的な解析には影響しないことを確認します。そのため、パラメータは個別のコンポーネントとして削除され、任意のパス セグメントに表示されるようになりました。それらの影響は、相対 URI 参照を解決するためのアルゴリズムから取り除かれました。

パラメーターはスクレイピングに役立ちます。たとえば、URL がhttp://www.example.com/products/women?color=green

を使用するurlparseと、パラメータが取得されます。に変更する必要がmenありhttp://www.example.com/products/men?color=greenます。kidsgirlboy

于 2015-05-07T03:23:47.377 に答える