問題タブ [urlopen]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonでurllib2を使用してページのフェッチを高速化するにはどうすればよいですか?
いくつかの Web ページを取得して情報を解析するスクリプトがあります。
(例はhttp://bluedevilbooks.com/search/?DEPT=MATH&CLASS=103&SEC=01で見ることができます)
その上でcProfileを実行しましたが、想定どおり、urlopenには多くの時間がかかります。ページをより速く取得する方法はありますか? または、一度に複数のページを取得する方法はありますか? 私はPythonとWeb開発に慣れていないので、最も簡単なことは何でもします。
前もって感謝します!:)
更新: という関数がありますfetchURLs()
。これを使用して、必要な URL の配列を作成します。URLurls = fetchURLS()
はすべて Amazon および eBay API からの XML ファイルです (これは、ロードに時間がかかる理由について私を混乱させます。私のウェブホストは遅いですか?)
私がする必要があるのは、各 URL を読み込み、各ページを読み取り、そのデータをスクリプトの別の部分に送信して、データを解析して表示することです。
すべてのページがフェッチされるまで、後半を実行できないことに注意してください。それが私の問題です。
また、私のホストでは、一度に 25 プロセスに制限されていると思います。そのため、サーバー上で最も簡単なものは何でもいいでしょう :)
ここに時間があります:
python - Pythonのurllib2urlopenでタイムアウトエラーを検出する
私はまだPythonに比較的慣れていないので、これが明らかな質問である場合は、お詫び申し上げます。
私の質問はurllib2ライブラリに関するもので、それはurlopen関数です。現在、これを使用して別のサーバーから大量のページをロードしています(これらはすべて同じリモートホスト上にあります)が、タイムアウトエラーによってスクリプトがときどき強制終了されます(これは大量のリクエストによるものと思われます)。
タイムアウト後もスクリプトを実行し続ける方法はありますか?すべてのページをフェッチできるようにしたいので、ページを取得して次に進むまで試行を続けるスクリプトが必要です。
ちなみに、サーバーへの接続を開いたままにしておくと役に立ちますか?
python - Pythonauth_handlerが機能していません
パスワードで保護されたディレクトリを開いて読み取るPythonのurllib2の機能について読んでいますが、ドキュメントやここStackOverflowの例を見た後でも、スクリプトを機能させることができません。
コンテンツを印刷すると、開こうとしているURLがリダイレクトするログイン画面のコンテンツが印刷されます。なぜこれなのか誰もが知っていますか?
python - urllib2.urlopen()はキャッシュしますか?
彼らはPythonのドキュメントでこれについて言及していませんでした。そして最近、urllib2.urlopen()を使用して特定のコンテンツを抽出するだけでサイトを更新するWebサイトをテストしていますが、サイトを更新すると、urllib2.urlopen()が新しく追加されたコンテンツを取得しないように見えることがあります。だから、どこかにキャッシュがあるのだろうか?
php - Pythonを使用してWPスーパーキャッシュをバイパスする方法は?
頻繁に更新されるブログからデータを収集しようとしているので、urllib2.urlopen( "http:\ example.com")を含むwhileループを使用して、5分ごとにページを更新し、必要なデータを収集します。
しかし、これを行っても最新のコンテンツが得られないことに気付きました。Firefoxなどのブラウザで表示されるものとは異なり、FirefoxのソースコードとPythonから取得した同じページの両方を確認したところ、最新の結果を得るのを妨げているのはWPスーパーキャッシュです。
また、Pythonコードのヘッダーをスプーフィングしても、同じキャッシュページが表示されます。では、WPスーパーキャッシュをバイパスする方法はあるのでしょうか。そして、なぜFirefoxにそのようなスーパーキャッシュがまったくないのですか?
python - urllib2.urlopen が「http://localhost/new-post#comment-29」のようなページを開くことができないのはなぜですか?
この行を実行すると 404 エラーが発生するのはなぜですか?
http://localhost/new-post#com-29を任意のブラウザで正常に閲覧できますが...
urlopen メソッドは "#" を含む URL を解析しませんか?
誰か知ってる?
python - python mechanize javascript送信ボタンの問題!
mechanize.browserモジュールを使用してスクリプトを作成しています。
問題の1つは、他のすべては問題ないということですが、submit()フォームを使用すると、機能しません。
だから私はいくつかの疑惑のソース部分が見つかりました。
htmlソースで私は次のように見つかりました。
私は考えています、loginCheck(this)はフォームを送信するときに問題を引き起こします。
しかし、mechanizeモジュールでこの種のjavascript関数を処理する方法、それで私はできます
フォームを正常に送信し、結果を受け取ることができますか?
以下は、loginCheck(this)javascript関数に関連するwebsourceスニペットです。
mechanizeがjavascriptをサポートしていないことを知っているので、progammatically loginCheck()を作成したい
Pythonの機械化コードで機能します。
誰かが私がこのjavascript関数をPythonで機械化するのを手伝ってくれませんか
翻訳されたコード?
だから正しくウェブサイトでログインできますか?
よろしくお願いします!
誰かが私を助けることができれば..大いに感謝します!!
python - Urllib が無効な引数 URLError を発生させる Python 3、urllib.request.urlopen
Python は初めてですが、サイトからデータを取得しようとしています:
これは、Python 3.1 のドキュメントで見たのと同じコードです。そして、たくさんのサイト。
しかし、私は得る:
何が原因なのかわかりません。誰でも知っていますか?
python - AppEngine ホストに例外がありません
を使用する Python アプリがありますurllib.urlopen
。では正常に動作しますが、私の GAE 運用サーバーではエラーdev_appserver.py
がスローされます。[Errno http error] no host given
コードはまったく同じで、接続先の URL はハードコーディングされています。私はアイデアがありません。何が間違っている可能性があります。
UPD : コード:
これは、quicklatex.com Web サイトから返されたページをフェッチします。最初の行にはエラーの数が含まれ、2 番目の行には生成された画像へのリンクが含まれ、その後にスペースと数字が続きます。写真のURLを取得しています。url
変数自体には、いくつかの LaTeX コードが含まれています。
python - バッファリングされていないurllib2.urlopen
長時間実行されるプロセスへのWebインターフェイス用のクライアントがあります。そのプロセスからの出力を表示してもらいたいのですが。でうまく機能しますが、パラメータurllib.urlopen()
がありません。timeout
一方urllib2.urlopen()
、出力はバッファリングされます。そのバッファを無効にする簡単な方法はありますか?