“codepages”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

8089 参照

.net - .NET は Unicode を ASCII に変換して「スマートクォート」などを削除できますか?

一部のユーザーは、メールヘッダーでエンコーディングなどが適切に設定されていても、Unicode に対応できない電子メールクライアントを使用しています。

彼らが受け取っているコンテンツを「正規化」したいと思います。私たちが抱えている最大の問題は、ユーザーが Microsoft Word から Web アプリケーションにコンテンツをコピーして貼り付けることです。これにより、そのコンテンツが電子メールで転送されます。これには、分数、スマートクォート、および Word が便利に挿入する他のすべての拡張 Unicode 文字が含まれます。 .

これには明確な解決策はないと思いますが、座って大きなルックアップテーブルを書き始める前に、何か組み込みのメソッドを使って作業を開始できますか?

基本的に 3 つのフェーズが関係しています。

まず、そうでなければ通常の文字からアクセントを取り除きます - これに対する解決策はここにあります

に行く

次に、単一の Unicode 文字を同等の ASCII 文字に置き換えると、次のようになります。

これは、自分で実装する前に解決策があることを望んでいる部分です。最後に、特定の文字を適切な ASCII シーケンス (½ から 1/2 など) に置き換えることは、どの種類の Unicode マジックでもネイティブにサポートされていないことは確かですが、誰かが適切なルックアップテーブルを作成した可能性があります。再利用。

何か案は？

2011-05-28T18:34:05.543

0 投票する

2 に答える

1966 参照

c# - Web サービス出力からの ASCII 制御文字のスクラブ

最近使用した Web サービスから受け取ったテキストに問題がありました。Web サービスは XML を送り返しますが、これは問題ありませんが、一部の XML の途中で ASCII 制御文字を取得しています。この投稿に例を貼り付けたかったのですが、無効な文字であるため、このテキストエリアに貼り付けることさえできません。

これらの場合に何をすべきかを調査するのに時間を費やしたところ、有益な記事http://seattlesoftware.wordpress.com/2008/09/11/hexadecimal-value-0-is-an-invalid-character/を見つけました。関連するこの記事からの引用は次のとおりです。

これらは、XML データに関係する文字ではありません。彼らは削除されるべき違法な文字です...

そのため、この記事のアドバイスに従って、このサービスから生の出力を取得し、制御文字 (スペース、タブ、cr、または lf ではない) であるすべての文字を削除するコードをいくつか書きました。

そのコードは次のとおりです。

しかし、これは私に考えさせました。2 バイト文字を受け取った場合、返されたデータを台無しにすることはありますか? コードページによっては、1 バイトまたは 2 バイトの ASCII 制御文字で構成される 2 バイト文字を使用することは有効ですか? これらの文字が XML データにあると「何の役にも立たない」という記事は最終的なものに聞こえますが、セカンドオピニオンが必要です。

フィードバックをお待ちしております

c#xml encoding ascii codepages

2011-06-13T16:49:32.107

0 投票する

1 に答える

1690 参照

python - WindowsでのPythonでのファイル名のフォーマット

私は2つの異なるファイルを持っています：

'╠.txt'および'¦.txt'

そのような単純なコード：

戻るだろう

OxCCの代わりに╠文字のコード0xA6を取得している理由がわかりません。私はencode-decodeメソッドを使って遊んでみましたが、成功しませんでした。sys.getfilesystemencoding（）がmbcsに設定されていることに気づきましたが、cp437のように変更することはできません。

どんな助けでも大歓迎です。ありがとう！

python unicode codepages mbcs

2011-06-21T13:16:47.067

0 投票する

1 に答える

1351 参照

java - Javaでファイルエンコーディングテーブルを変更する方法

エンコーディングテーブルをチェックするコードがあります:

Windows から起動すると cp1250 のテキストファイルが取得され、組み込みシステムから起動すると cp852 のテキストファイルが取得されます。Windows ではコードページ 852 を設定しました。Eclipse では cp852 を設定しました。いくつかの解決策？

java encoding character-encoding codepages file-encodings

2011-06-22T12:18:29.573

0 投票する

2 に答える

5101 参照

c# - UTF-8 アラビア文字を CodePage 1001 に変換する方法は?

CodePage 1001 アラビア語をサポートする Star Micronics TSP を使用していますが、C# を使用して UTF-8 を特定のコードページに変換するにはどうすればよいですか?

更新: CodePage 864 がプリンターと互換性があることがわかりました。16 進数値を送信してみましたが、正しい文字が得られました。

文字列をcodePage 864に変換するために次のことを試しました：

エンコーディング後に取得しているバイト arr 値は{63,63,63,63,63,63}値が間違っており、2 バイト文字であるためバイト数も間違っています。

c#.net encoding character-encoding codepages

2011-07-24T17:41:45.500

0 投票する

0 に答える

125 参照

winapi - GetCPInfoEx 文書化されていない動作/エラー

GetCPInfoEx は、コードページ 20949 および 1147 で失敗します。

20949 の場合、GetLastError のエラーは「指定されたリソース名がイメージファイルに見つかりません」です。

1147 の場合、GetLastError は空です。

これらのコードページは両方ともmsdnに従って有効である必要があり、私のシステムにインストールされています。ドキュメントには GetLastError が空であることについて何も記載されていません。

これらのコードページに特別な点はありますか? ドキュメントに何か不足がありますか?

winapi windows-7 codepages

2011-08-01T10:22:41.850

0 投票する

1 に答える

767 参照

winapi - Windowsシステムロケールはシステム全体である必要がありますか？

こんにちは皆さん。Windowsシステムロケール（または、システムコードページ、1252、936、950など）はシステム全体である必要がありますか？ご存知のとおり、Windows 2000〜Windows 7では、コントロールパネルでシステムコードページを変更するには、再起動する必要があります。

ログオンセッションごとのロケール設定、またはプロセスごとのロケール設定を使用できるかどうかを知りたいですか？これにより、異なるロケールで実行されているプログラムのデバッグが容易になります。

ところで：GetCPInfo（）Win32 APIが見つかりましたが、対応するSetCPInfoが見つかりませんでした。

winapi locale codepages

2011-08-04T08:48:56.397

0 投票する

1 に答える

390 参照

c# - さらに別のコードページ検出の質問

OK、槍で私に飛びかかって、コードページの燃える戦場に私を連れて行く前に、私はテキストのコードページを自動検出しようとしているわけではないことに注意してください. 私はそれが不可能であることを知っています。しかし、コードページの問題を自動的に検出できるかどうかはわかりません。次の例を見てください。大きなテキスト (2 ～ 3 ページ) と「デフォルト」のコードページがあります。デフォルトのコードページでテキストをデコードしようとしました。意味不明になったら、別のコードページでテキストをデコードしようとします。問題は、どうにかして意味不明な文字を検出できるかということです。

事前にご協力いただきありがとうございます。よろしく、ダニエル

c#codepages

2011-08-09T12:43:45.297

0 投票する

2 に答える

17462 参照

vb6 - ä が a に変換されるときに、ASCII 文字セットの特殊文字で ADODB.Stream を使用するのはなぜですか?

vb6 の一部の変数の内容をテキストファイルに出力しようとすると問題が発生します。問題は、拡張 ASCII の特殊文字が ä、ü、á として表示される場合、出力では、a、u、a などの一致する基本 ASCII 文字に変換されることです。

UTF-8 のようにエクスポートしようとすると、文字が正しく表示されますが、出力を ASCII にする必要があります。また、ファイル名に通常、この文字 (ä、ü、á...) を置換せずに含めることができるのは奇妙に見えます。

これは、「ASCII」文字セットが基本であり、拡張されていないためでしょうか? おそらく、Windows で構成された CodePages が原因でしょうか? 私はそれらのいくつか（ドイツ語、英語）を試してみましたが、同じ結果が得られました。

これは私が使用しているコードです:

前もって感謝します！

vb6 character-encoding ascii ado codepages

2011-08-12T09:34:25.987

0 投票する

1 に答える

563 参照

c# - データセットで値を読み取ると、クライアント OS に応じて特定の言語の文字が台無しになります

OleDBConnection を使用して Dbase データベースファイルからデータを含むデータセットを作成する C# を使用して Windows アプリケーションを作成しました。

私の問題は、これが自分のコンピューター (スウェーデン語) で問題なく動作することですが、これをサーバー (英語) で実行すると、スウェーデン語の文字 (å、ä、ö、Å、Ä、Ö) がめちゃくちゃになることです。

私は運がないのでこれを試しました：

c#dataset dbf codepages currentculture

2011-08-23T08:22:15.957

問題タブ [codepages]

Reference