問題タブ [urlparse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonでurlparseとsplit()を使用してURLを解析するには?
誰かhost = parsed.netloc.split('@')[-1].split(':')[0]
が次のコードでこの行の目的を説明してもらえますか? netlock からホスト名を取得しようとしていることは理解していますが、@ 区切り文字で分割し、さらに : 区切り文字で分割する理由がわかりません。
確かに、ドメインだけが必要な場合は、urlparse.netloc から取得できます。
python - Python urlparse にヘッダーを追加する
urlparse コマンドにヘッダーを追加する方法はないようです。これにより、基本的に Python はデフォルトのユーザー エージェントを使用しますが、これはいくつかの Web ページによってブロックされます。私がやろうとしていることは、本質的にこれと同等のことをすることです:
ただし、urlparse を使用する場合:
では、この urlparse を変更して、ヘッダーを取得したり、作成したリクエストで使用できるようにするにはどうすればよいでしょうか? どんな助けでも大歓迎です、ありがとう。
また、私が得ている正確なエラーを知りたい人のために:
これで:
python-2.7 - virtualenv での Aptana Python stdlib の問題
私は最近、virtualenv セットアップのテキスト エディターとして vim だけを使用してプロジェクトに取り組み始めました。GitHub からこの virtualenv にいくつかの API をインストールしました。最終的に、プロジェクトが vim の処理能力を超えたので、プロジェクトを IDE に移動する必要がありました。
Aptana Studio 3 を選択しました。Aptana を起動したとき、プロジェクト ディレクトリを、プロジェクトを格納するために作成した virtualenv フォルダーに指定しました。次に、インタープリターに、App/bin (virtualenv から作成)/python2.7 にある Python 実行可能ファイルを指定しました。すべてが正しくマッピングされていることを確認するためにコードの修正を開始したところ、インストールした API を問題なくインポートできました。CherryPy は問題なく動作しましたが、stdlib の一部であると思われるモジュール (urlparse) のインポートで問題が発生しました。最初は、私の Python インタープリターが 2.7.5 ではなく 2.7.1 だと思っていました (2.7.1 を確認するオプションがない 2.7.5 セクションのドキュメントを見つけました) が、私の端末は 2.7.1 を使用しており、エラーなしでモジュールをインポートできます(私はOSX、Mountain Lionを使用しています)。virtualenv をアクティブにして Python インタープリターを実行すると、モジュールをインポートすることもできます。しかし、「from urlparse import parse_qsl」を Aptana にプラグインすると、「Unresolved_import: parse_qsl」というエラーが発生します。
これを別のインタープリターに向けるべきでしたか? もしそうなら、新しいインタープリターで使用していた API モジュールを再インストールする必要がありますか?
python - Web クローラー エラー: "AttributeError: Spider インスタンスに属性 'find' がありません"
Web クローラーと Python の urlparse プラグインに問題があります。以下のコードは、基本的にブルームバーグなどの特定のドメインをクロールし、すべての html をデスクトップにダウンロードします。まだかなり初期段階なので、エラーなどに気付くと思います(私はpythonが初めてです。)
私が現在抱えている特定の問題は、関数に関連していますreconstruct_url
。関数を個別にテストしたurlparse.urljoin(a,b)
ところ、期待どおりに動作しますが、このクラスでは気に入らないだけです。ここで何が問題なのかを教えてくれる人はいますか?
私のコードで他の問題が盲目的に明白である場合は、お気軽にそれらもお知らせください。これは、完全なプログラムを作成する最初の試みです。ただし、これはまだ比較的初期の段階にあることに注意してください。助けてくれてありがとう。
python - python urljoinディレクトリが含まれていません
urlparse.urljoin に関するいくつかの状況を修正したいと考えています。このライブラリを次のように使用する
http://xxxx.yyy/directory/file.fileを提供しますが、最終的に次のようなURLにスラッシュを付けない場合
http://xxxx.yyy/file.fileが表示され、自動収集プログラムを作成するのが難しくなります。誰でもこの問題を解決する解決策を見つけることができますか? 最後に正規表現と置換でスラッシュを入れようとしましたが、URLが次のように終了すると、これらは正しく機能しません
python - Pythonでクエリ文字列/パラメータを使用してURLをフィルタリングするための正規表現
URLのリストをループしていくつかの操作を行うコードがありますが、入力されたURLにはそれぞれクエリ文字列が含まれている必要があります.URLが正しく、実際にクエリ文字列が含まれているかどうかを最初に確認したい. URLのチェックのみが見つかりました。私が見つけた最も近い解決策は、このようにurlparseを使用することです
しかし、もっと堅実な正規表現でそれを行うことができるのだろうか
javascript - JavaScript でプロトコルが定義されていない場合、URL に http:// を追加するにはどうすればよいですか?
私の質問はこれと同じですが、正解は JavaScript ではなく PHP です。
http://またはhttps://またはftp://がない場合、URL に http:// を追加するにはどうすればよいですか?
基本的に、PHP 構文を使用するこの同じ関数を JavaScript を使用してどのように作成できるのでしょうか? 関数preg_matchを使用すると、JavaScript で定義されていないためです。