問題タブ [character-encoding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonのstring.printableに印刷できない文字が含まれているのはなぜですか?
1つの質問に2つのString.printableミステリーがあります。
まず、Python 2.6では:
文字列の終わりを見ると、「\ x0b\x0c」が親指のように突き出ているのがわかります。なぜ彼らはそこにいるのですか?オーストラリアの設定に設定されたマシンを使用しているので、アクセントのある文字などは使用しないでください。
次に、次のコードを実行してみてください。
最初の行は、スペースで区切られたすべての文字を正常に印刷します。2つの奇妙な文字は、男性と女性のシンボルになります。
2行目は、改行で区切られた最後を除くすべての文字を正常に印刷します。男性のシンボルが印刷されます。女性の記号は、欠落している文字(ボックス)に置き換えられます。
Pythonは性別による偏見を意図したものではなかったと思いますが、違いは何でしょうか。
character-encoding - 人の名前に使用できるすべての文字は?
標準の AZ、az 文字だけでなく、ハイフン、全角ダッシュ、引用符などもあります。
さらに、ウムラウトなどのすべての国際文字があります。
では、英語ベースのシステムの場合、完全なセットは何でしょうか? 他の言語のセットはどうですか? UTF8、UTF16などはどうですか?
おまけの質問: 必要な名前フィールドの数と、それらの最大長はどれくらいですか?
編集:人の名前には、文脈の一部として存在するものと、構造上の理由から存在するものの 2 種類の文字が含まれていることは間違いありません。コンテキスト文字を制限したり干渉したりしたくありませんが、構造的な文字を処理する必要があります。
たとえば、全角ダッシュで区切られた名前が入ってきましたが、マイナス記号と区別するのが困難でした。システムを検索しやすくするために、5 つの異なるタイプのダッシュをすべて取得し、それらを 1 つの一意の文字 (マイナス) にマッピングします。これにより、検索者は最初にどの記号が入力されたかを具体的に知る必要がなくなります。
問題はダッシュ、おそらく引用符にも存在しますが、他の記号はいくつありますか?
javascript - 文字を Javascript で対応するギリシャ語に変換する
次のようなデータを提供するWebサービスからのJSONデータがあります
javascript を使用して、ギリシャ語のタグ内にあるものを同等の記号に変換できる必要があります。
何か案は?
mysql - テーブル内のデータのエンコーディングが正しくないかどうかを確認するにはどうすればよいですか?
latin1文字セットに設定されているテーブルがいくつかありますが、実際にutf8を使用してエンコードされたいくつかの値が誤って挿入された可能性があります。
MySQLは、接続設定に基づいてすべてをサイレントに変換するため、これを少し複雑にします。
MySQLのlatin1列にutf8でエンコードされたバイトがあるという仮説をどのようにテストできますか?
c# - C#.NETアプリケーションでñを表示する
ローカリゼーションの問題があります。
私の勤勉な同僚の1人が、アプリケーション全体のすべての文字列を、辞書に含まれている定数に置き換えました。ユーザーが言語を選択すると、その辞書にはさまざまな文字列が配置されます(デフォルトでは英語ですが、ターゲット言語はドイツ語、スペイン語、フランス語、ポルトガル語、北京語、タイ語です)。
この機能のテストでは、ボタンを変更して、スペイン語とArial Unicode MSフォント(アプリケーション全体で使用)の両方で表示されるñ文字のテキストを含める必要がありました。
問題は、プログラムがそれを表示する方法を知らなかったかのように、ñが正方形のブロックとして表示されていることです。ディスクから読み取られている特定の文字列をデバッグすると、デバッガーはその文字を正方形のブロックとしても報告します。
では、失敗はどこにあるのでしょうか。私はそれがいくつかの場所にある可能性があると思います:
1)メモ帳はUnicodeに対応していない可能性があるため、そこに表示されるñはvs2008が期待するものと同じではないため、プログラムは文字を正方形として解釈します(編集:メモ帳はvsと同じ文字を表示します。つまり、両方ともñ。同じ場所で。)
2)vs2008はñを処理できません。信じがたいことです。
3)テキストは正しく読み込まれますが、vs2008のデフォルトのフォントでは表示できません。そのため、デバッガーは正方形を表示します。
4)テキストが正しく読み込まれないため、通常のStreamReader以外のものを使用して文字列を取得する必要があります。
5)テキストは正しく読み込まれますが、C#のデフォルトのStringクラスはñをうまく処理しません。信じがたいことです。
6)私が持っているArial Unicode MSのバージョンには、 http://www.fileinfo.infoによって5万文字の1つとしてリストされているにもかかわらず、ñがありません。
他に私が省略できたものはありますか?
助けてくれてありがとう!
c# - Csvファイルのエンコードエラーを読み取る
Csvファイルの内容を読み取るために次の方法を使用しています。
このメソッドは、次のようなschema.iniを含むUTF-8でエンコードされたCsvファイルがある場合に機能します。
UnicodeエンコーディングのCsvファイルにドイツ語の文字が含まれている場合、メソッドはデータを正しく読み取ることができません。
Unicode Csvファイルを読み取るために、上記の方法にどのような変更を加えることができますか?この方法でそれを行う方法がない場合、どのCsv読み取りコードを提案できますか?