これらのモジュールが何に使用されるのか正確にはわかりません。彼らはそれぞれの URL をそのコンポーネントに分割していると思いますが、なぜそれが役立つのでしょうか、または urlparse をいつ使用するかの例は何ですか?
1 に答える
urlparse
パラメータが必要な場合にのみ使用してください。パラメータが必要な理由を以下で説明しました。
urllib.parse. urlsplit (urlstring、scheme=''、allow_fragments=True)
これは urlparse() に似ていますが、パラメータを URL から分割しません。URL のパス部分の各セグメントにパラメータを適用できる最新の URL 構文 ( RFC 2396を参照) が必要な場合は、通常、urlparse() の代わりにこれを使用する必要があります。
ホスト名は、変数に格納して後で使用したり、パラメーターを追加したり、ホスト名にクエリを追加して、スクレイピング中に必要な Web ページを取得したりするのに常に役立ちます。
パラメータについて:
参考: RFC2396 によると、url のパラメーター
現在のクライアント アプリケーションを徹底的にテストした結果、展開されたシステムの大部分が「;」記号を使用していないことがわかりました。文字を使用して末尾のパラメーター情報を示し、パス セグメントにセミコロンが存在しても、そのセグメントの相対的な解析には影響しないことを確認します。そのため、パラメータは個別のコンポーネントとして削除され、任意のパス セグメントに表示されるようになりました。それらの影響は、相対 URI 参照を解決するためのアルゴリズムから取り除かれました。
パラメーターはスクレイピングに役立ちます。たとえば、URL がhttp://www.example.com/products/women?color=green
を使用するurlparse
と、パラメータが取得されます。に変更する必要がmen
ありhttp://www.example.com/products/men?color=green
ます。kids
girl
boy