問題タブ [urllib2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonでウィキペディアの記事を取得する
Pythonのurllibを使用してウィキペディアの記事を取得しようとしています。
ただし、htmlページの代わりに、次の応答があります。エラー-ウィキメディア財団:
ウィキペディアは、標準のブラウザからではないリクエストをブロックしているようです。
誰かがこれを回避する方法を知っていますか?
python - urllib2 でキャッシングしますか?
私が見落としている urllib2 を使用するときに物事をキャッシュする簡単な方法はありますか、それとも自分でロールバックする必要がありますか?
python - Python の mechanize モジュールのエラー
このモジュールを使用して、mechanize
Python から Web クエリを実行しています。私は自分のプログラムがエラー耐性があり、あらゆる種類のエラー (間違った URL、403/404 応答など) を適切に処理できるようにしたいと考えています。ただし、mechanize のドキュメントには、さまざまなエラーに対してスローされるエラー/例外が見つかりません。
私はちょうどそれを呼び出す:
ここでどのようなエラー/例外がスローされるかを知り、それらを処理するにはどうすればよいですか?
python - urllib2 ファイル名
urllib2 を使用してファイルを開くと、次のようになります。
元の URL を解析する以外にファイル名を取得する簡単な方法はありますか?
編集: openfile を urlopen に変更しました...それがどのように起こったのかわかりません。
EDIT2:私は使用してしまった:
私が間違っていない限り、これにより、潜在的なクエリもすべて取り除かれます。
python - Apacheソケットが閉じていませんか?
CherryPyを使用して作成されたWebアプリケーションがあります。これはでローカルに実行され127.0.0.1:4321
ます。mod-rewriteとmod-proxyを使用して、Apacheをリバースプロキシとして機能させます。ApacheはSSL暗号化も処理し、最終的にはすべての静的コンテンツの転送に使用される可能性があります。
これはすべて、小さなワークロードで問題なく機能します。ただし、最近urllib2
、100クライアントのワークロードをシミュレートするストレステストスクリプトを作成していました。しばらくすると、各クライアントはApacheから503エラーを受け取り、Apacheがに接続できないことを示し127.0.0.1:4321
ます。CherryPyは正常に機能していますが、Apacheエラーログに次のような行が表示されます。
[Thu Oct 02 12:55:44 2008] [error] (OS 10048)Only one usage of each socket address (protocol/network address/port) is normally permitted. : proxy: HTTP: attempt to connect to 127.0.0.1:4321 (*) failed
このエラーをグーグルで検索すると、Apacheがおそらくソケットファイル記述子を使い果たしていることがわかります。urllib2
私は100のクライアントしか実行していないので、これは、接続とApacheの間(私は間違いなく.close()
の戻り値を呼び出していますurlopen
)、またはApacheとCherryPyの間のいずれかで接続が閉じられていないことを意味します。
urllib2
リクエストがHTTPヘッダーを送信していることを確認しましたが、それが重要な場合Connection: close
はApacheが構成されKeepAlive On
ています。
重要な場合は、Python 2.5、Apache 2.2、CherryPy 3.0.3を使用しており、サーバーはWindowsServer2003で実行されています。
では、この問題を防ぐための次のステップは何ですか?
python - urllib.urlopen は機能しますが、urllib2.urlopen は機能しません
私はテストしている簡単なウェブサイトを持っています。これは localhost で実行されており、Web ブラウザーでアクセスできます。インデックス ページは単に「実行中」という単語です。 urllib.urlopen
ページを正常に読み取りますが、読み取りurllib2.urlopen
ません。問題を示すスクリプトを次に示します (これは実際のスクリプトであり、別のテスト スクリプトを簡略化したものではありません)。
スタック トレースは次のとおりです。
何か案は?のより高度な機能が必要になる可能性があるurllib2
ため、単に を使用するだけではなくurllib
、この問題を理解したいと考えています。
python - Python: urllib/urllib2/httplib の混乱
Python でログイン シーケンスをスクリプト化して Web アプリの機能をテストしようとしていますが、問題が発生しています。
これが私がする必要があることです:
- いくつかのパラメーターとヘッダーを指定して POST を実行します。
- リダイレクトに従う
- HTML 本文を取得します。
現在、私は比較的 python に慣れていませんが、これまでにテストした 2 つのことはうまくいきませんでした。最初に httplib を使用し、putrequest() (URL 内でパラメーターを渡す) と putheader() を使用しました。これはリダイレクトに従っていないようです。
次に、urllib と urllib2 を試し、ヘッダーとパラメーターの両方を dict として渡しました。これは、ログインしようとしているページではなく、ログインページを返すようです.Cookieまたは何かが不足しているためだと思います.
簡単なものがありませんか?
ありがとう。
python - urllib2 データ送信
私は最近、SOの助けを借りてこれを書きました。誰かが実際にボードにログオンする方法を教えてください。ログインしていない形式ですべてを表示します。
python - Pythonでファイルオブジェクトを文字列として読み取る
私はurllib2
ページを読むために使用しています。ソースで簡単な正規表現を実行し、いくつかの変数を取り出す必要がありますがurllib2
、文字列ではなくファイル オブジェクトとして表示されます。
私はPythonが初めてなので、ファイルオブジェクトを使用してこれを行う方法を理解するのに苦労しています。これを文字列に変換する簡単な方法はありますか?
python - Python を使用したリダイレクトと Cookie の追跡
Pythonを使用して、さまざまなWebページによって設定されたリダイレクトとCookieを追跡および追跡できるようにしたいと思います(Firefoxの改ざんプラグインに少し似ています)。
したがって、website1 が website2 にリダイレクトされ、次に website3 にリダイレクトされる場合、それに従い、各 Web サイトが設定する Cookie も確認したいと思います。Urllib2 を見てきましたが、自動的にリダイレクトされ、リダイレクトを追跡する方法がわかりません。