問題タブ [cp1251]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - javascriptでキリル文字をASCIIコードに変換する方法
CP1251 テーブルのすべての文字を 0 ~ 255 の ASCII コードに変換する方法が本当に必要です。これまでに見つけた唯一の方法は、128 までのコードでのみ機能する charCodeAt() 関数です。私には良くないユニコード番号です。
python - 文字列をCP-1251からUTF-8に変換するにはどうすればよいですか?
ID3タグデータをCP-1251 / CP-1252からUTF-8に変換するために変異原を使用しています。Linuxでは問題はありません。ただし、WindowsではSetValue()
、wx.TextCtrlを呼び出すとエラーが発生します。
UnicodeDecodeError:'ascii'コーデックは位置0のバイト0xc3をデコードできません:序数が範囲内にありません(128)
私が変異原から引き出している元の文字列(CP-1251でエンコードされていると想定)は次のとおりです。
これをUTF-8に変換してみました:
...さらに、デフォルトのエンコーディングをASCIIからUTF-8に変更します。
...しかし、同じエラーが発生します。
encoding - intellij のアイデアで情報を失うことなくファイルのエンコードを変更する
キリル文字情報を失うことなく、ファイルのエンコーディングを UTF-8 から windows1251 に変更することは可能ですか? エンコーディングを明示的に変更すると、すべてのキリル文字が読めなくなるからですか?
java - Java を使用して Paradox データベースを読み取る際のエンコードの問題
Paradox ファイル (*.db) を読み取る Java アプリケーション (JDK 1.7 を使用) があります。ラテン文字でうまく機能します。このアプリケーションでキリル文字を正しく表示しようとしていますが、常に読みにくい結果が得られます。
データベースに接続する元のコード:
接続の取得中に追加のプロパティを渡そうとしました:
しかし、それは何もしませんでした。文字セットを「UTF-8」として指定しようとしましたが、うまくいきませんでした。
ResultSet を読み取る元のコードは次のようになります。
しかし、タイトルが読めません。また、rs.getBytes() を使用して結果を新しい文字列に渡し、コンストラクターでエンコーディングを指定しようとしましたが、それもうまくいきませんでした。
何が欠けているのか、誰にも分かりますか。
android - AndroidHttpPost-cp1251でリクエストを送信します
このコードでリクエストを送信します:
UTF-8でリクエストを送信しますが、cp1251が必要です(サイトはこのCPでのみ機能します)。それをcp1251にエンコードする方法は?
python - GoogleAppEngineでのPythonユニコードの動作
私は完全にgaeと混同しました。応答として(Google App Engine APIからのurlfetchを使用して)POSTリクエストを実行するスクリプトがあり、cp1251でエンコードされたhtmlページを取得します。
次に、.decode('cp1251')を使用してデコードし、lxmlで解析します。
私のコードは私のローカルマシンで完全に正常に動作します:
しかし、それをgaeにデプロイすると、次のようになります。
非ユニコード文字はどうですか?そして、なぜすべてがローカルで大丈夫なのですか?私は自分のコードに配置するdecoding\encodingのすべてのバリエーションを試しました-何も役に立ちませんでした。私は今数日間立ち往生しています。
UPD:また、GAEのスクリプトに追加すると:
両方を「unicode」として返します。だから、私はhtmlが正しくデコードされたと信じています。それはGAEのlxmlで何かでしょうか?
pdf - WordからのCP1251印刷ファイルの問題
私はAdobeDistiller6を使用してWordから印刷されたPDF(1.4)ファイルをたくさん持っています。フォントが埋め込まれ(LinuxマシンにあるTahomaとTimes New Roman)、エンコードには「ANSI」と「Identity-H」と表示されます。ANSIによると、地域のコードページはWindowsマシン(CP-1251(キリル文字))から使用されていると思います。「Identity-H」については、Adobeだけが知っていることだと思います。
テキストのみを抽出し、このファイルにインデックスを付けたい。問題は、からガベージ出力を取得することpdftotext
です。サンプルのPDFファイルをAcrobatからエクスポートしようとしましたが、再びガベージが発生しましたが、さらに処理するとiconv
正しいデータが得られました。
iconv -f windows-1251 -t utf-8 Adobe-exported.txt
しかし、同じトリックは機能しませんpdftotext
:
pdftotext -raw -nopgbrk sample.pdf - | iconv -f windows-1251 -t utf-8
これはデフォルトでUTF-8エンコーディングを想定しており、その後にガベージを出力します。Сiconv: illegal input sequence at position 77
pdftotext -raw -nopgbrk -enc Latin1 sample.pdf - | iconv -f windows-1251 -t utf-8
再びゴミを捨てます。
/usr/share/poppler/unicodeMap
私はCP1251を持っていません、そしてグーグルでそれを見つけることができなかったので、それを作ってみました。ウィキペディアCP1251データからファイルを作成し、ファイルの最後に他のマップの内容を追加しました。
だからそれpdftotext
は文句を言わないが、結果として:
pdftotext -enc CP1251 sample.pdf -
再び同じゴミです。hexdump
一目で何も明らかにならないので、これから何かを必死に結論付けようとする前に、ここで私の問題について尋ねようと思いましたhexdumps
php - xmlからphpおよび解析エンコーディングエラー
file_get_contents ()関数とsimpleXMLを使用してurl(以下のコード)からxmlファイルを解析し、データをテーブルに挿入していますが、エンコードに問題があります(ロシア語)これを取得します-> Р§ ерногория ; ファイルとデータベースのエンコーディングはutf-8に設定されています。
c#-4.0 - ITextSharp:キリル文字/国際語でhtmlを解析します
htmlファイルを解析してpdfを生成しようとしています。コードを使用します
キリル文字/国際語を使用したい場合、ベースフォントを定義するにはどうすればよいですか?