問題タブ [urllib2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
10 に答える
27030 参照

python - Pythonでウィキペディアの記事を取得する

Pythonのurllibを使用してウィキペディアの記事を取得しようとしています。

ただし、htmlページの代わりに、次の応答があります。エラー-ウィキメディア財団:

ウィキペディアは、標準のブラウザからではないリクエストをブロックしているようです。

誰かがこれを回避する方法を知っていますか?

0 投票する
7 に答える
8714 参照

python - urllib2 でキャッシングしますか?

私が見落としている urllib2 を使用するときに物事をキャッシュする簡単な方法はありますか、それとも自分でロールバックする必要がありますか?

0 投票する
3 に答える
6509 参照

python - Python の mechanize モジュールのエラー

このモジュールを使用して、mechanizePython から Web クエリを実行しています。私は自分のプログラムがエラー耐性があり、あらゆる種類のエラー (間違った URL、403/404 応答など) を適切に処理できるようにしたいと考えています。ただし、me​​chanize のドキュメントには、さまざまなエラーに対してスローされるエラー/例外が見つかりません。

私はちょうどそれを呼び出す:

ここでどのようなエラー/例外がスローされるかを知り、それらを処理するにはどうすればよいですか?

0 投票する
14 に答える
39640 参照

python - urllib2 ファイル名

urllib2 を使用してファイルを開くと、次のようになります。

元の URL を解析する以外にファイル名を取得する簡単な方法はありますか?

編集: openfile を urlopen に変更しました...それがどのように起こったのかわかりません。

EDIT2:私は使用してしまった:

私が間違っていない限り、これにより、潜在的なクエリもすべて取り除かれます。

0 投票する
2 に答える
5733 参照

python - Apacheソケットが閉じていませんか?

CherryPyを使用して作成されたWebアプリケーションがあります。これはでローカルに実行され127.0.0.1:4321ます。mod-rewriteとmod-proxyを使用して、Apacheをリバースプロキシとして機能させます。ApacheはSSL暗号化も処理し、最終的にはすべての静的コンテンツの転送に使用される可能性があります。

これはすべて、小さなワークロードで問題なく機能します。ただし、最近urllib2、100クライアントのワークロードをシミュレートするストレステストスクリプトを作成していました。しばらくすると、各クライアントはApacheから503エラーを受け取り、Apacheがに接続できないことを示し127.0.0.1:4321ます。CherryPyは正常に機能していますが、Apacheエラーログに次のような行が表示されます。

[Thu Oct 02 12:55:44 2008] [error] (OS 10048)Only one usage of each socket address (protocol/network address/port) is normally permitted. : proxy: HTTP: attempt to connect to 127.0.0.1:4321 (*) failed

このエラーをグーグルで検索すると、Apacheがおそらくソケットファイル記述子を使い果たしていることがわかります。urllib2私は100のクライアントしか実行していないので、これは、接続とApacheの間(私は間違いなく.close()の戻り値を呼び出していますurlopen)、またはApacheとCherryPyの間のいずれかで接続が閉じられていないことを意味します。

urllib2リクエストがHTTPヘッダーを送信していることを確認しましたが、それが重要な場合Connection: closeはApacheが構成されKeepAlive Onています。

重要な場合は、Python 2.5、Apache 2.2、CherryPy 3.0.3を使用しており、サーバーはWindowsServer2003で実行されています。

では、この問題を防ぐための次のステップは何ですか?

0 投票する
4 に答える
11258 参照

python - urllib.urlopen は機能しますが、urllib2.urlopen は機能しません

私はテストしている簡単なウェブサイトを持っています。これは localhost で実行されており、Web ブラウザーでアクセスできます。インデックス ページは単に「実行中」という単語です。 urllib.urlopenページを正常に読み取りますが、読み取りurllib2.urlopenません。問題を示すスクリプトを次に示します (これは実際のスクリプトであり、別のテスト スクリプトを簡略化したものではありません)。

スタック トレースは次のとおりです。

何か案は?のより高度な機能が必要になる可能性があるurllib2ため、単に を使用するだけではなくurllib、この問題を理解したいと考えています。

0 投票する
8 に答える
30920 参照

python - Python: urllib/urllib2/httplib の混乱

Python でログイン シーケンスをスクリプト化して Web アプリの機能をテストしようとしていますが、問題が発生しています。

これが私がする必要があることです:

  1. いくつかのパラメーターとヘッダーを指定して POST を実行します。
  2. リダイレクトに従う
  3. HTML 本文を取得します。

現在、私は比較的 python に慣れていませんが、これまでにテストした 2 つのことはうまくいきませんでした。最初に httplib を使用し、putrequest() (URL 内でパラメーターを渡す) と putheader() を使用しました。これはリダイレクトに従っていないようです。

次に、urllib と urllib2 を試し、ヘッダーとパラメーターの両方を dict として渡しました。これは、ログインしようとしているページではなく、ログインページを返すようです.Cookieまたは何かが不足しているためだと思います.

簡単なものがありませんか?

ありがとう。

0 投票する
4 に答える
3927 参照

python - urllib2 データ送信

私は最近、SOの助けを借りてこれを書きました。誰かが実際にボードにログオンする方法を教えてください。ログインしていない形式ですべてを表示します。

0 投票する
3 に答える
48319 参照

python - Pythonでファイルオブジェクトを文字列として読み取る

私はurllib2ページを読むために使用しています。ソースで簡単な正規表現を実行し、いくつかの変数を取り出す必要がありますがurllib2、文字列ではなくファイル オブジェクトとして表示されます。

私はPythonが初めてなので、ファイルオブジェクトを使用してこれを行う方法を理解するのに苦労しています。これを文字列に変換する簡単な方法はありますか?

0 投票する
1 に答える
1558 参照

python - Python を使用したリダイレクトと Cookie の追跡

Pythonを使用して、さまざまなWebページによって設定されたリダイレクトとCookieを追跡および追跡できるようにしたいと思います(Firefoxの改ざんプラグインに少し似ています)。

したがって、website1 が website2 にリダイレクトされ、次に website3 にリダイレクトされる場合、それに従い、各 Web サイトが設定する Cookie も確認したいと思います。Urllib2 を見てきましたが、自動的にリダイレクトされ、リダイレクトを追跡する方法がわかりません。