問題タブ [codepages]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - .NET は Unicode を ASCII に変換して「スマート クォート」などを削除できますか?
一部のユーザーは、メール ヘッダーでエンコーディングなどが適切に設定されていても、Unicode に対応できない電子メール クライアントを使用しています。
彼らが受け取っているコンテンツを「正規化」したいと思います。私たちが抱えている最大の問題は、ユーザーが Microsoft Word から Web アプリケーションにコンテンツをコピーして貼り付けることです。これにより、そのコンテンツが電子メールで転送されます。これには、分数、スマート クォート、および Word が便利に挿入する他のすべての拡張 Unicode 文字が含まれます。 .
これには明確な解決策はないと思いますが、座って大きなルックアップ テーブルを書き始める前に、何か組み込みのメソッドを使って作業を開始できますか?
基本的に 3 つのフェーズが関係しています。
まず、そうでなければ通常の文字からアクセントを取り除きます - これに対する解決策はここにあります
に行く
次に、単一の Unicode 文字を同等の ASCII 文字に置き換えると、次のようになります。
これは、自分で実装する前に解決策があることを望んでいる部分です。最後に、特定の文字を適切な ASCII シーケンス (½ から 1/2 など) に置き換えることは、どの種類の Unicode マジックでもネイティブにサポートされていないことは確かですが、誰かが適切なルックアップ テーブルを作成した可能性があります。再利用。
何か案は?
c# - Web サービス出力からの ASCII 制御文字のスクラブ
最近使用した Web サービスから受け取ったテキストに問題がありました。Web サービスは XML を送り返しますが、これは問題ありませんが、一部の XML の途中で ASCII 制御文字を取得しています。この投稿に例を貼り付けたかったのですが、無効な文字であるため、このテキストエリアに貼り付けることさえできません。
これらの場合に何をすべきかを調査するのに時間を費やしたところ、有益な記事http://seattlesoftware.wordpress.com/2008/09/11/hexadecimal-value-0-is-an-invalid-character/を見つけました。関連するこの記事からの引用は次のとおりです。
これらは、XML データに関係する文字ではありません。彼らは削除されるべき違法な文字です...
そのため、この記事のアドバイスに従って、このサービスから生の出力を取得し、制御文字 (スペース、タブ、cr、または lf ではない) であるすべての文字を削除するコードをいくつか書きました。
そのコードは次のとおりです。
しかし、これは私に考えさせました。2 バイト文字を受け取った場合、返されたデータを台無しにすることはありますか? コードページによっては、1 バイトまたは 2 バイトの ASCII 制御文字で構成される 2 バイト文字を使用することは有効ですか? これらの文字が XML データにあると「何の役にも立たない」という記事は最終的なものに聞こえますが、セカンド オピニオンが必要です。
フィードバックをお待ちしております
python - WindowsでのPythonでのファイル名のフォーマット
私は2つの異なるファイルを持っています:
'╠.txt'および'¦.txt'
そのような単純なコード:
戻るだろう
OxCCの代わりに╠文字のコード0xA6を取得している理由がわかりません。私はencode-decodeメソッドを使って遊んでみましたが、成功しませんでした。sys.getfilesystemencoding()がmbcsに設定されていることに気づきましたが、cp437のように変更することはできません。
どんな助けでも大歓迎です。ありがとう!
java - Javaでファイルエンコーディングテーブルを変更する方法
エンコーディングテーブルをチェックするコードがあります:
Windows から起動すると cp1250 のテキスト ファイルが取得され、組み込みシステムから起動すると cp852 のテキスト ファイルが取得されます。Windows ではコード ページ 852 を設定しました。Eclipse では cp852 を設定しました。いくつかの解決策?
c# - UTF-8 アラビア文字を CodePage 1001 に変換する方法は?
CodePage 1001 アラビア語をサポートする Star Micronics TSP を使用していますが、C# を使用して UTF-8 を特定のコード ページに変換するにはどうすればよいですか?
更新: CodePage 864 がプリンターと互換性があることがわかりました。16 進数値を送信してみましたが、正しい文字が得られました。
文字列をcodePage 864に変換するために次のことを試しました:
エンコーディング後に取得しているバイト arr 値は{63,63,63,63,63,63}
値が間違っており、2 バイト文字であるためバイト数も間違っています。
winapi - Windowsシステムロケールはシステム全体である必要がありますか?
こんにちは皆さん。Windowsシステムロケール(または、システムコードページ、1252、936、950など)はシステム全体である必要がありますか?ご存知のとおり、Windows 2000〜Windows 7では、コントロールパネルでシステムコードページを変更するには、再起動する必要があります。
ログオンセッションごとのロケール設定、またはプロセスごとのロケール設定を使用できるかどうかを知りたいですか?これにより、異なるロケールで実行されているプログラムのデバッグが容易になります。
ところで:GetCPInfo()Win32 APIが見つかりましたが、対応するSetCPInfoが見つかりませんでした。
c# - さらに別のコードページ検出の質問
OK、槍で私に飛びかかって、コードページの燃える戦場に私を連れて行く前に、私はテキストのコードページを自動検出しようとしているわけではないことに注意してください. 私はそれが不可能であることを知っています。しかし、コード ページの問題を自動的に検出できるかどうかはわかりません。次の例を見てください。大きなテキスト (2 ~ 3 ページ) と「デフォルト」のコード ページがあります。デフォルトのコード ページでテキストをデコードしようとしました。意味不明になったら、別のコード ページでテキストをデコードしようとします。問題は、どうにかして意味不明な文字を検出できるかということです。
事前にご協力いただきありがとうございます。よろしく、 ダニエル
vb6 - ä が a に変換されるときに、ASCII 文字セットの特殊文字で ADODB.Stream を使用するのはなぜですか?
vb6 の一部の変数の内容をテキスト ファイルに出力しようとすると問題が発生します。問題は、拡張 ASCII の特殊文字が ä、ü、á として表示される場合、出力では、a、u、a などの一致する基本 ASCII 文字に変換されることです。
UTF-8 のようにエクスポートしようとすると、文字が正しく表示されますが、出力を ASCII にする必要があります。また、ファイル名に通常、この文字 (ä、ü、á...) を置換せずに含めることができるのは奇妙に見えます。
これは、「ASCII」文字セットが基本であり、拡張されていないためでしょうか? おそらく、Windows で構成された CodePages が原因でしょうか? 私はそれらのいくつか(ドイツ語、英語)を試してみましたが、同じ結果が得られました。
これは私が使用しているコードです:
前もって感謝します!
c# - データセットで値を読み取ると、クライアント OS に応じて特定の言語の文字が台無しになります
OleDBConnection を使用して Dbase データベース ファイルからデータを含むデータセットを作成する C# を使用して Windows アプリケーションを作成しました。
私の問題は、これが自分のコンピューター (スウェーデン語) で問題なく動作することですが、これをサーバー (英語) で実行すると、スウェーデン語の文字 (å、ä、ö、Å、Ä、Ö) がめちゃくちゃになることです。
私は運がないのでこれを試しました: