問題タブ [mojibake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
utf-8 - 日本語の SRT ファイルが文字化けし、iconv で修正するエンコーディングを特定できない
私はsrtファイルを持っています、抜粋:
おそらくこれらは日本語の字幕ですが、明らかにエンコーディングの問題で文字化けしています。それを修正して最終的にUTF-8に変換する方法を見つけようとしています。誰にもアイデアはありますか?
ファイル出力: UTF-8 Unicode (BOM 付き) テキスト、CRLF 行末記号付き
テスト用のファイルはこちらから入手できます: http://www.opensubtitles.org/en/subtitles/5040215/the-incredible-burt-wonderstone-ja
python - \\u00c3\\u00a9 が é になるのはどの世界ですか?
私が管理していないソースから不適切にエンコードされた可能性のある json ドキュメントがあり、次の文字列が含まれています。
これから、私は彼らが utf-8 hex になる予定の\u00c3\u00a9
beceomを集めています。それはある程度理にかなっています。他のものについては、ある種の方向引用符を扱っていると思います。é
C3 A9
ここでの私の理論は、これはこれまでに遭遇したことのないエンコーディングを使用しているか、何らかの方法で二重にエンコードされているということです。彼らの壊れた入力を私が理解できるものに変換するためのコードを書いても問題ありません。私が彼らの注意を引いたとしても、彼らがシステムを修正できる可能性は非常に低いからです。
私が理解できるものに彼らの入力を強制する方法はありますか? 記録のために、私はPythonで作業しています。
python - Python 出力のロシア語記号が破損している (ENCODING)
HTML ドキュメントを解析したところ、ロシア語のテキストが含まれていました。Pythonで印刷しようとすると、次のようになります。
デコードしようとしたところ、ISO-8859-1 エンコーディングが取得されました。私はそれを次のようにデコードしようとしています:
しかし、エラーが発生します。このテキストを印刷したり、 Unicodeでエンコードしたりするにはどうすればよいですか?
.net - DotNetZip - ASCII 以外の文字を含むファイルの抽出
日本語の文字を含むファイルを含む zip アーカイブを抽出しようとしています。
解凍して内容を見ると、日本語の文字が文字化けしています。これは Winrar/Winzip でも発生するため、このプログラムを作成するつもりでした。
最初はファイル名にもこの問題がありましたが、以下のコードのエンコーディングで修正しました。
ファイルの内容を正しくエンコードするためにさまざまな方法を試しましたが、すべて失敗しました。日本語の文字を含むテキスト ファイルを作成し、UTF8 で保存して新しい zip アーカイブに追加し、以下のコードで抽出すると、内容が正しく出力されます。
しかし、ダウンロードしたいくつかの zip ファイルは同じように動作せず、代わりに意味不明な内容になっています。これと同じ問題を抱えていない友人がいるので、ファイルのエンコーディングの問題ではないと 100% 確信しており、彼女は日本語のシステム ロケールを使用していますが、私は英語を使用していますが、これらのファイルを抽出せずに抽出できるようにしたいと考えています。システム ロケールを切り替えます。
python - python unicode 値を取得/テキストを取得
ユニコード変数があるとしましょう:
uni_var
「u」がないだけで、と同じになる文字列が必要なので、次のようにします。
どうすればいいですか?次のようなものを見つけたい:
mysql - MySQL - ANSI から Unicode への変換
どういうわけか、MySQL データベースのデータが Unicode から ANSI に変換され、システム内の多くのシンボルが正しく表示されなくなりました。
シンボルは次のように表示されます。
- -</li>
- </li>
- …</li>
- Ω
- 等
私はそれをUnicodeに変換したいと思います...
私は試しました:
- データベースを UTF8 文字セットとして再インポートする
- Notepad ++を使用して「UTF8に変換...」
- デフォルトの文字セット UTF8 を Apache 構成に追加しました...
- すべての DB とテーブルを取得してコピーし、データを変換してから、元のデータベースを再作成する PHP スクリプト。
これらの方法はうまくいきませんでした...データをそのままにしておくようですが、今後シンボルを使用しようとするとうまくいきます。
これらの既存の誤解を元の形に戻したい!
DB からのサンプル テキストの 16 進出力。
これは次と同等です: SELECT hex('☼STICKY☼');
出力:C3A2CB9CC2BC535449434B59C3A2CB9CC2BC
python - Pythonを使用してガベージユニコード文字列を特定する
私のスクリプトはcsvファイルからデータを読み取ります。csvファイルには、英語または英語以外の単語の複数の文字列を含めることができます。
テキストファイルにガベージ文字列が含まれている場合があります。それらの文字列を特定し、それらの文字列をスキップして他の文字列を処理したい
csv 入力:
ガベージ文字列を識別し、有効な文字列のみを処理する関数 is_valid_unicode_str() を汚したいと考えています。
デコードを使用しようとしましたが、ガベージ文字列のデコード中に失敗しませんでした
予想される出力は、処理される中国語と英語の文字列を含む文字列です。
有効な Unicode ファイルをフィルタリングする機能を実装する方法を教えてください。
python - Python: 特殊文字をインクリメントする Í
Excelファイルからいくつかの単語を読み取り、いくつかの情報を抽出したいと考えています。ファイルの読み取りは問題ありません。
ポイントは、単語の最後の文字をインクリメントしたいということです。「あ」のような普通の文字なら問題ありません。しかし、'Í' のような特殊文字は問題です。
私はこれで内容を読みました:
この値を辞書に入れました。
次のステップは、dict を繰り返し処理し、保存された情報を取得することです。info['streettype'] には、以前の値が含まれています。今、私はこのように値を大文字に変換します:
私が言ったように、一部の文字は特別なので、これが必要です (例: 'é'、'ž'、'í')。ここで、単語の最後の文字をインクリメントしたいと思います。これは特殊文字にすることができます。
次に、次を使用して文字をインクリメントします。
次に、テキスト ファイルに保存します。元の単語と編集した単語を保存したい。lastLetter2 を再エンコードする必要があると思いますが、うまくいきません。w2 と w3+lastLetter2 を保存すると、エンコードされているものとエンコードされていないものがあるため、奇妙な結果が得られます。
言葉について:
私の結果は次のとおりです。
でも私はしたい:
(Í は ascii 205、Î は ascii 206)
誰かがこの問題を解決するのを手伝ってくれますか?
python - ISO-8859-1 と UTF-8 の比較
Unicode 文字列を含むファイルがあります。u"L'\xe9quipe le quotidien"
Windowsからエクスポートされiso-8859-1
、同じ文字列でエンコードされた別のファイルがあります:(これは私のシェル"L'<E9>quipe le quotidien"
からのコピー/貼り付けです)。less
Windows ファイルの内容を で変換すると、Windows ファイルの内容とdecode('iso-8859-1').encode('utf8')
は異なる文字列になります: L'équipe le quotidien
.
この比較を行う最良の方法は何ですか? latin1 文字列を utf-8 に変換できないようです。
python - Unicode Normalization
Is there a possible normalization path which brings both strings below to same value?
u'Aho\xe2\u20ac\u201cCorasick_string_matching_algorithm'
u'Aho\u2013Corasick string matching algorithm'