問題タブ [urlparse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python urlparse から返されるタプルの params 部分は何ですか?
params
URL に対していくつかの検証を行っていますが、 から返されたタプルの一部を表す良い例が見つかりませんurlparse()
。
https://docs.python.org/2/library/urlparse.htmlから:
私は最善を尽くしましたが、SO と Goog の検索はうまくいきません。
python-3.4 - Python 3 : urlparse/urlsplit を使用する理由
これらのモジュールが何に使用されるのか正確にはわかりません。彼らはそれぞれの URL をそのコンポーネントに分割していると思いますが、なぜそれが役立つのでしょうか、または urlparse をいつ使用するかの例は何ですか?
python - Python 2.x で URL を分割する
以下のように、いくつかの HTML コードで解析されているリンクがあります。
私がやろうとしているのは、コードの 2 番目の http から始まる 2 番目の部分を抽出することです。したがって、上記の場合、抽出したい
URL をセグメントに分割することを検討しましたが、時間の経過とともに構造が最初の部分と同じままになるかどうかはわかりません。
「http」の 2 番目の出現を識別し、そこから最後までコードを解析することは可能ですか?
python - Portia スパイダーの展開で、Scraped ではなく Crawled から URL を取得するにはどうすればよいですか?
私はscrapydでPortiaスパイダーを展開しています。展開中に、リンクの解析ごとに URL を渡しています
例: スパイダーによってクロールされるhttp://www.example.com/query1
URL (URL_1 など) と、私が渡す URL (URL_2 など) はhttp://www.example.com/query2
、コンテンツを抽出するためのものです。
私のスパイダーは URL_2 からコンテンツを抽出し、それぞれのアイテムに保存しました。これで問題ありません。
[URL]アイテムとURL_2をアイテムに格納していますが、[URL]アイテムにURL_1を格納したいです。
解決策はありますか?
python - database_url から mysql データベース名を解析する方法
DATABASE_URL - MYSQL://username:password@host:port/database_name
エラー: database_name には属性がありません。
python - Python - URL をコンポーネントに分割する
次のような URL の膨大なリストがあります。
VAR1 と VAR2 は URL の動的要素です。私がやりたいことは、この URL 文字列から VAR1 のみを抽出することです。urlparseを使用しようとしましたが、出力は次のようになります。
python - Python を使用して URL を修復する
大きなファイルがあります。このファイルの各行は人間が入力した URL であるため、http
欠落www
などのさまざまな問題が発生する可能性があります。
これらの URL を修復できる Python モジュールはありますか? url_fix
から試してみましwerkzeug.urls
たが、探しているものとはまったく異なります。
もちろん、考えられるすべての間違いを修復できる方法はありませんが、最も一般的な間違いを修復する方法を探しています。
何かアドバイスはありますか?
編集: Peter Wood のコメントによると、URL にwww
. 私の場合、それらは eshop URL です。
python - 一部を変更してPythonでURLを解析する
Python で URL を解析しています。以下にサンプル URL とコードを示します。(74743) を URL から分割し、パーツ リストから取得する for ループを作成します。urlparse を使用しようとしましたが、主に URL の変更部分が原因で、最後まで完了することができませんでした。これを行う最も簡単で最速の方法が欲しいだけです。
サンプル URL:
( http://example.com/wps/portal ) 常に固定
(lYuxDoIwGAYf6f9aqKSjMNQ) 常に変化
(74743) リスト名パーツから取得されます
(IntNumberOf=&is=) サイトのセクションによっても変わる
コードは次のとおりです。
python - URL パラメータを Pandas DataFrame に抽出する
パラメータ付きの URL アドレスを含むリストがあります。
各 URL には、4 つのパラメーターのいずれかを含めることができます。
URL パラメータを抽出して Pandas DataFrame に追加したいと考えています。DataFrame には、URL 列とパラメーターを含む 4 つの列が必要です。URL にパラメーターが存在しない場合、セルは空です。
パラメータを簡単に抽出できるpython組み込みのurlparseモジュールを使用することを計画していました。
urlparseを使用すると、URL のパラメーターのリストを取得できます。
抽出されたパラメーターを DataFrame に追加する方法がわかりません。多分それを行うより良い方法がありますか?元のファイルは ~1m の URL です。