問題タブ [urlparse]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
33 参照

python - Python urlparse から返されるタプルの params 部分は何ですか?

paramsURL に対していくつかの検証を行っていますが、 から返されたタプルの一部を表す良い例が見つかりませんurlparse()

https://docs.python.org/2/library/urlparse.htmlから:

私は最善を尽くしましたが、SO と Goog の検索はうまくいきません。

0 投票する
1 に答える
4337 参照

python-3.4 - Python 3 : urlparse/urlsplit を使用する理由

これらのモジュールが何に使用されるのか正確にはわかりません。彼らはそれぞれの URL をそのコンポーネントに分割していると思いますが、なぜそれが役立つのでしょうか、または urlparse をいつ使用するかの例は何ですか?

0 投票する
2 に答える
63 参照

python - Python 2.x で URL を分割する

以下のように、いくつかの HTML コードで解析されているリンクがあります。

私がやろうとしているのは、コードの 2 番目の http から始まる 2 番目の部分を抽出することです。したがって、上記の場合、抽出したい

URL をセグメントに分割することを検討しましたが、時間の経過とともに構造が最初の部分と同じままになるかどうかはわかりません。

「http」の 2 番目の出現を識別し、そこから最後までコードを解析することは可能ですか?

0 投票する
0 に答える
119 参照

python - Portia スパイダーの展開で、Scraped ではなく Crawled から URL を取得するにはどうすればよいですか?

私はscrapydでPortiaスパイダーを展開しています。展開中に、リンクの解析ごとに URL を渡しています

例: スパイダーによってクロールされるhttp://www.example.com/query1URL (URL_1 など) と、私が渡す URL (URL_2 など) はhttp://www.example.com/query2、コンテンツを抽出するためのものです。

私のスパイダーは URL_2 からコンテンツを抽出し、それぞれのアイテムに保存しました。これで問題ありません。

[URL]アイテムとURL_2をアイテムに格納していますが、[URL]アイテムにURL_1を格納したいです。

解決策はありますか?

0 投票する
3 に答える
7112 参照

python - database_url から mysql データベース名を解析する方法

DATABASE_URL - MYSQL://username:password@host:port/database_name

エラー: database_name には属性がありません。

0 投票する
4 に答える
21350 参照

python - Python - URL をコンポーネントに分割する

次のような URL の膨大なリストがあります。

VAR1 と VAR2 は URL の動的要素です。私がやりたいことは、この URL 文字列から VAR1 のみを抽出することです。urlparseを使用しようとしましたが、出力は次のようになります。

0 投票する
0 に答える
420 参照

python - Python を使用して URL を修復する

大きなファイルがあります。このファイルの各行は人間が入力した URL であるため、http欠落wwwなどのさまざまな問題が発生する可能性があります。

これらの URL を修復できる Python モジュールはありますか? url_fixから試してみましwerkzeug.urlsたが、探しているものとはまったく異なります。

もちろん、考えられるすべての間違いを修復できる方法はありませんが、最も一般的な間違いを修復する方法を探しています。

何かアドバイスはありますか?

編集: Peter Wood のコメントによると、URL にwww. 私の場合、それらは eshop URL です。

0 投票する
1 に答える
731 参照

python - 一部を変更してPythonでURLを解析する

Python で URL を解析しています。以下にサンプル URL とコードを示します。(74743) を URL から分割し、パーツ リストから取得する for ループを作成します。urlparse を使用しようとしましたが、主に URL の変更部分が原因で、最後まで完了することができませんでした。これを行う最も簡単で最速の方法が欲しいだけです。

サンプル URL:

( http://example.com/wps/portal ) 常に固定

(lYuxDoIwGAYf6f9aqKSjMNQ) 常に変化

(74743) リスト名パーツから取得されます

(IntNumberOf=&is=) サイトのセクションによっても変わる

コードは次のとおりです。

0 投票する
3 に答える
3526 参照

python - URL パラメータを Pandas DataFrame に抽出する

パラメータ付きの URL アドレスを含むリストがあります。

各 URL には、4 つのパラメーターのいずれかを含めることができます。

URL パラメータを抽出して Pandas DataFrame に追加したいと考えています。DataFrame には、URL 列とパラメーターを含む 4 つの列が必要です。URL にパラメーターが存在しない場合、セルは空です。

パラメータを簡単に抽出できるpython組み込みのurlparseモジュールを使用することを計画していました。

urlparseを使用すると、URL のパラメーターのリストを取得できます。

抽出されたパラメーターを DataFrame に追加する方法がわかりません。多分それを行うより良い方法がありますか?元のファイルは ~1m の URL です。