問題タブ [cp1251]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3505 参照

javascript - javascriptでキリル文字をASCIIコードに変換する方法

CP1251 テーブルのすべての文字を 0 ~ 255 の ASCII コードに変換する方法が本当に必要です。これまでに見つけた唯一の方法は、128 までのコードでのみ機能する charCodeAt() 関数です。私には良くないユニコード番号です。

0 投票する
6 に答える
62023 参照

python - 文字列をCP-1251からUTF-8に変換するにはどうすればよいですか?

ID3タグデータをCP-1251 / CP-1252からUTF-8に変換するために変異原を使用しています。Linuxでは問題はありません。ただし、WindowsではSetValue()、wx.TextCtrlを呼び出すとエラーが発生します。

UnicodeDecodeError:'ascii'コーデックは位置0のバイト0xc3をデコードできません:序数が範囲内にありません(128)

私が変異原から引き出している元の文字列(CP-1251でエンコードされていると想定)は次のとおりです。

これをUTF-8に変換してみました:

...さらに、デフォルトのエンコーディングをASCIIからUTF-8に変更します。

...しかし、同じエラーが発生します。

0 投票する
2 に答える
11069 参照

encoding - intellij のアイデアで情報を失うことなくファイルのエンコードを変更する

キリル文字情報を失うことなく、ファイルのエンコーディングを UTF-8 から windows1251 に変更することは可能ですか? エンコーディングを明示的に変更すると、すべてのキリル文字が読めなくなるからですか?

0 投票する
1 に答える
2136 参照

java - Java を使用して Paradox データベースを読み取る際のエンコードの問題

Paradox ファイル (*.db) を読み取る Java アプリケーション (JDK 1.7 を使用) があります。ラテン文字でうまく機能します。このアプリケーションでキリル文字を正しく表示しようとしていますが、常に読みにくい結果が得られます。

データベースに接続する元のコード:

接続の取得中に追加のプロパティを渡そうとしました:

しかし、それは何もしませんでした。文字セットを「UTF-8」として指定しようとしましたが、うまくいきませんでした。

ResultSet を読み取る元のコードは次のようになります。

しかし、タイトルが読めません。また、rs.getBytes() を使用して結果を新しい文字列に渡し、コンストラクターでエンコーディングを指定しようとしましたが、それもうまくいきませんでした。

何が欠けているのか、誰にも分かりますか。

0 投票する
0 に答える
337 参照

android - AndroidHttpPost-cp1251でリクエストを送信します

このコードでリクエストを送信します:

UTF-8でリクエストを送信しますが、cp1251が必要です(サイトはこのCPでのみ機能します)。それをcp1251にエンコードする方法は?

0 投票する
2 に答える
1321 参照

python - GoogleAppEngineでのPythonユニコードの動作

私は完全にgaeと混同しました。応答として(Google App Engine APIからのurlfetchを使用して)POSTリクエストを実行するスクリプトがあり、cp1251でエンコードされたhtmlページを取得します。

次に、.decode('cp1251')を使用してデコードし、lxmlで解析します。

私のコードは私のローカルマシンで完全に正常に動作します:

しかし、それをgaeにデプロイすると、次のようになります。

非ユニコード文字はどうですか?そして、なぜすべてがローカルで大丈夫なのですか?私は自分のコードに配置するdecoding\encodingのすべてのバリエーションを試しました-何も役に立ちませんでした。私は今数日間立ち往生しています。

UPD:また、GAEのスクリプトに追加すると:

両方を「unicode」として返します。だから、私はhtmlが正しくデコードされたと信じています。それはGAEのlxmlで何かでしょうか?

0 投票する
0 に答える
583 参照

pdf - WordからのCP1251印刷ファイルの問題

私はAdobeDistiller6を使用してWordから印刷されたPDF(1.4)ファイルをたくさん持っています。フォントが埋め込まれ(LinuxマシンにあるTahomaとTimes New Roman)、エンコードには「ANSI」と「Identity-H」と表示されます。ANSIによると、地域のコードページはWindowsマシン(CP-1251(キリル文字))から使用されていると思います。「Identity-H」については、Adobeだけが知っていることだと思います。

テキストのみを抽出し、このファイルにインデックスを付けたい。問題は、からガベージ出力を取得することpdftotextです。サンプルのPDFファイルをAcrobatからエクスポートしようとしましたが、再びガベージが発生しましたが、さらに処理するとiconv正しいデータが得られました。

iconv -f windows-1251 -t utf-8 Adobe-exported.txt

しかし、同じトリックは機能しませんpdftotext

pdftotext -raw -nopgbrk sample.pdf - | iconv -f windows-1251 -t utf-8

これはデフォルトでUTF-8エンコーディングを想定しており、その後にガベージを出力します。Сiconv: illegal input sequence at position 77

pdftotext -raw -nopgbrk -enc Latin1 sample.pdf - | iconv -f windows-1251 -t utf-8

再びゴミを捨てます。

/usr/share/poppler/unicodeMap私はCP1251を持っていません、そしてグーグルでそれを見つけることができなかったので、それを作ってみました。ウィキペディアCP1251データからファイルを作成し、ファイルの最後に他のマップの内容を追加しました。

だからそれpdftotextは文句を言わないが、結果として:

pdftotext -enc CP1251 sample.pdf -

再び同じゴミです。hexdump一目で何も明らかにならないので、これから何かを必死に結論付けようとする前に、ここで私の問題について尋ねようと思いましたhexdumps

0 投票する
1 に答える
462 参照

php - xmlからphpおよび解析エンコーディングエラー

file_get_contents ()関数とsimpleXMLを使用してurl(以下のコード)からxmlファイルを解析し、データをテーブルに挿入していますが、エンコードに問題があります(ロシア語)これを取得します-> Р§ ерногория ; ファイルとデータベースのエンコーディングはutf-8に設定されています。

0 投票する
2 に答える
2948 参照

c#-4.0 - ITextSharp:キリル文字/国際語でhtmlを解析します

htmlファイルを解析してpdfを生成しようとしています。コードを使用します

キリル文字/国際語を使用したい場合、ベースフォントを定義するにはどうすればよいですか?