問題タブ [urllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Unicode の問題 Django-Python-URLLIB-MySQL
Web ページ ( http://autoweek.com ) を取得して処理しようとしていますが、エンコード エラーが発生します。Autoweek は "iso-8859-1" エンコーディングを宣言し、"Nürburgring" (ウムラウト付きの u) という単語を持っています。
そうです:
次のエラーが表示されます。
.decode ステップをバイパスして lxml ライブラリで解析を行うと、解析されたタイトルをデータベースに保存するときにエラーが発生します。
私のデータベースには文字セット utf8 と照合 utf-general-ci があります
私の設定:
Django
Python 2.4.3
MySQL 5.0.22
MySQL-python 1.2.1
mod_python 3.2.8
python - python urllib、メッセージを見る方法は?
urllib shttp リクエストで送り返されるメッセージを監視するにはどうすればよいですか? 単純な http の場合は、ソケットのトラフィックを監視するだけですが、もちろん https では機能しません。これを行うために設定できるデバッグフラグはありますか?
python - multipart/form-data でエンコードされたデータを POST するための Python 標準ライブラリ
multipart/form-data でエンコードされたデータを POST したいと思います。それを行う外部モジュールを見つけました: http://atlee.ca/software/poster/index.html しかし、この依存関係は避けたいと思います。標準ライブラリを使用してこれを行う方法はありますか?
ありがとう
python - 公開鍵サーバーから公開鍵を取得する方法への関連クエリ
このコードにより、Web ページの情報とコンテンツを表示することができます。実際に、Python関数を使用して公開鍵サーバーから公開鍵を取得する方法について質問しました。
python - urllib.urlretrieve で 404 エラーをキャッチする方法
バックグラウンド:モジュールurllib.urlretrieve
内の他の関数とは対照的にurllib*
、フック関数のサポート (以下をreporthook
参照) .. を使用して、テキストの進行状況バーを表示するために使用しています。これは Python >=2.6 です。
ただし、urlretrieve
非常に愚かであるため、HTTP 要求のステータスを検出する方法がありません (例: 404 または 200 でしたか?)。
フックのようなサポート (進行状況バーを表示するため) と適切な HTTP エラー処理を備えたリモート HTTP ファイルをダウンロードする最もよく知られている方法は何ですか?
python - Python urllib.urlopen() 呼び出しが、ブラウザーが受け入れる URL で機能しない
Firefox でhttp://bitbucket.org/tortoisehg/stable/wiki/Home/ReleaseNotesを参照すると、HTML のページが表示されます。しかし、Pythonでこれを試してみると:
私は以下を取得します:
500 内部サーバー エラー サーバーで内部エラーまたは構成ミスが発生したため、要求を完了できませんでした。
私は何を間違っていますか?
python - Django: 画像の URL から ImageField に画像を追加する
私の醜い英語を許してください;-)
この非常に単純なモデルを想像してください:
画像 URL から写真を作成したいと思います (つまり、django 管理サイトで手動ではありません)。
私はこのようなことをする必要があると思います:
教えていただけない場合でも、問題を十分に説明できたことを願っています。
ありがとうございました :)
編集 :
content
これはうまくいくかもしれませんが、django Fileに変換する方法がわかりません:
python - Python urllib、ミニダム、国際文字の解析
次のURLを使用してGoogleWeatherAPIから情報を取得しようとすると、
http://www.google.com/ig/api?weather=Munich,Germany&hl=de
そして、それをミニドムで解析しようとすると、ドキュメントが適切に形成されていないというエラーが発生します。
次のコードを使用します
応答のドイツ語の文字がエラーの原因だと思います。
これを行う正しい方法は何ですか?
python - urllib2でurllib2.HTTPErrorが発生し、urllibでエラーが発生しないのはなぜですか?
私は次の簡単なコードを持っています:
このコードは、次のエラーメッセージを生成します。
しかし、urllib2をurllibに置き換えても、エラーメッセージは表示されません。誰かがこの振る舞いを説明できますか?
python - Pythonで正しい文字セットを使用して(!)Webページをダウンロードするには?
問題
Python を使用して Web ページのスクリーン スクレイピングを行う場合、ページの文字エンコーディングを知る必要があります。文字エンコーディングが間違っていると、出力がめちゃくちゃになります。
人々は通常、いくつかの基本的な技術を使用してエンコーディングを検出します。ヘッダーの文字セットまたはメタ タグで定義された文字セットを使用するか、エンコーディング検出器(メタ タグやヘッダーを気にしない) を使用します。これらの手法を 1 つだけ使用すると、ブラウザーで行った場合と同じ結果が得られない場合があります。
ブラウザは次のようにします。
- メタ タグは常に優先されます (または xml 定義)。
- メタタグに文字セットが定義されていない場合、ヘッダーに定義されたエンコーディングが使用されます
- エンコーディングがまったく定義されていない場合は、エンコーディング検出の時間です。
(うーん...少なくとも、ほとんどのブラウザーがそうしていると私は信じています。ドキュメントは本当に不足しています。)
私が探しているのは、ブラウザが行う方法でページの文字セットを決定できるライブラリです。この問題に対する適切な解決策を必要とするのは、私が初めてではないと確信しています。
解決策(まだ試していません...)
Beautiful Soup は、ドキュメントを Unicode に変換するために、次のエンコーディングを優先順に試します。
- スープ コンストラクターに fromEncoding 引数として渡すエンコーディング。
- ドキュメント自体で検出されたエンコーディング: たとえば、XML 宣言または (HTML ドキュメントの場合) http-equiv META タグなど。Beautiful Soup がドキュメント内でこの種のエンコーディングを検出すると、ドキュメントを最初から再度解析し、新しいエンコーディングを試します。唯一の例外は、エンコーディングを明示的に指定し、そのエンコーディングが実際に機能した場合です。その場合、ドキュメント内で見つかったエンコーディングはすべて無視されます。
- ファイルの最初の数バイトを調べることによってスニッフィングされたエンコーディング。この段階でエンコーディングが検出された場合、それは UTF-* エンコーディング、EBCDIC、または ASCII のいずれかになります。
- インストールされている場合は、chardet ライブラリによってスニッフィングされたエンコーディング。
- UTF-8
- Windows-1252