問題タブ [gbk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - file.tell() がエンコーディングに影響するのはなぜですか?
tell()
GBK でエンコードされた私のファイルの読み取り中に呼び出すと、次の呼び出しreadline()
でUnicodeDecodeError
. ただし、 を呼び出さないとtell()
、このエラーは発生しません。
C:\tmp>hexdump badtell.txt
C:\tmp>test.py と入力
C:\tmp>python test.py
ステートメントを削除すると、f.tell()
正常にデコードされました。なんで?Win7/Win10 で Python3.4/3.5 x64 を試してみましたが、すべて同じです。
誰か、何か考えはありますか?バグを報告する必要がありますか?
大きなテキスト ファイルがあり、この大きなテキストのファイル位置範囲を取得したいのですが、回避策はありますか?
java - UTF-8 と GBK エンコードの両方をサポートするようにスプリング ブート アプリケーションを構成するにはどうすればよいですか?
プロジェクトでスプリング ブートを使用していますが、エンコードの問題が発生しています。
プロジェクトには、コンテンツ タイプ ヘッダー「application/x-www-form-urlencoded;charset=GBK」を含むリクエストを受け入れるコントローラー(下記)があります。
サード パーティがこの API を呼び出すと、リクエスト ボディが GBK でエンコードされます。ボディに中国語の文字セットが含まれていると、取得したパラメータが間違っていて、人間が読み取れるものではありません。この「結果������Ʒ」のようなものです。
クライアントは GBK エンコードでリクエスト ボディを送信するため、スプリング ブートは、スプリング ブートのデフォルトの文字セット エンコードである UTF-8 でリクエスト ボディをデコードします。
プロジェクトはさまざまなサードパーティで利用できますが、それらのほとんどは UTF-8 を使用しているため、次のように yml ファイルを構成してプロジェクトのエンコードを GBK に変更することはできません。
だから私の最初の考えは、私が得た間違った文字列を逆にすることです.しかし、私は次のテストで失敗します.
では、単一のスプリング ブート アプリケーションを使用して、GBK と UTF-8 エンコード要求の両方をサポートするにはどうすればよいでしょうか。
python-2.7 - html から中国語の表をダウンロードした後の奇妙な文字
MAC OS X 10.12 システムを使用しています。http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2011/51/06/81/510681114.htmlからテーブルをダウンロードしました 。テーブルは GB2312 でエンコードされていますが、GBK を使用してテーブルを保存しました。コードの主要部分は次のようになります。
他の多くの同様のテーブルでこのコード パターンを繰り返しましたが、一部のリンク (ここに投稿したものなど) では、ダウンロードされた中国語のテーブルに奇妙な文字が含まれています。これが例です。
このテーブルを実際の中国語に変換するにはどうすればよいですか、または中国語のテーブルをダウンロードするにはどうすればよいですか?
問題は、GB2312 を使用することを選択した場合、おそらくこのテーブルでは中国語で正しく表示される可能性がありますが、他のテーブルではこれらの厄介な奇妙な文字が引き続き表示されることです。
boost - json ファイルに gbk 中国語文字が含まれている場合、boost read_json で例外がスローされる
このようなjsonファイルがあり、bomなしで、gbkコードセットを使用してください。boost::property_tree は、大部分でそれを正常に解析できます。
ただし、ファイルに漢字「历」(c0fa) または「繞」(c040) が含まれている場合、property_tree は例外「無効なコード シーケンス」をスローします。