日本語の漢字、ひらがな、カタカナに対応する ASCII コードの一覧はどこで入手できますか。日本語の文字かどうかを判断するJava関数とJavascriptを実行しています。ASCII コードでのその範囲は?
7 に答える
漢字/かなの文字に関する私の同様の質問を参照してください。@coobirdが言及しているように、多くの漢字は漢字と重複しているため、チェックする範囲を決定するのは難しい場合があります。
要するに、ひらがなとカタカナのUnicode範囲は次のとおりです。
- ひらがな:Unicode:3040-309F
- カタカナ:Unicode:30A0–30FF
この回答が役に立った場合は、私の質問に対する@coobirdの回答にも賛成してください。
がんばって!
しばらく経ちましたが、ひらがな、カタカナ、漢字などの表とそれらのUnicodeへのリンクがあります...
http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml
しかし、おそらくご存知のように、Unicode は 16 進数です。プログラマー モードで Windows Calc を使用してこれらを 10 進数に変換し、その数値を ASCII コードとして入力すると、何に入力するかに応じて、必要な文字が生成されます。MS Wordpad と Word (メモ帳ではない) で使用できます。
たとえば、ひらがなぁはユニコードで 3041 です。3041 は 16 進数で、10 進数では 12353 に変換されます。ワードパッドまたはワードに ASCII コードとして 12353 を入力すると、つまり Alt を押したままテンキーに 12353 を入力してから Alt を放すと、印刷されます。日本語の範囲は、ひらがな:3040~309f(ASCIIで12352~12447)、カタカナ:30a0~30ff(ASCIIで12448~12543)、漢字:4e00~4DB5(19968~19893 ASCII)のようですので、いくつかあります。範囲。その表には半角カタカナの範囲もあります。
日本語の文字は ASCII の範囲ではなく、Unicode になります。各文字の char 値だけが必要ですか?
漢字には の Unicode "Script" プロパティがありHani
、ひらがなには の "Script" プロパティがありHira
、カタカナには の "Script" プロパティがありKana
ます。Java では、Character.UnicodeScript クラスを使用して文字の「スクリプト」プロパティを決定できます: http://docs.oracle.com/javase/7/docs/api/java/lang/Character.UnicodeScript.html Javascriptで文字の「スクリプト」プロパティを決定できるかどうかわかりません.
もちろん、ほとんどの漢字は中国語でも使用される文字です。猫のような文字が与えられた場合、それが漢字として使用されているのか日本語の文字として使用されているのかを判断することは不可能です.
ASCII 部分を再ハッシュしません。Unicode Code Chartsを見てください。
日本語のASCIIコードとは、日本語のSBCS (Single Byte Character Set) に相当するものだと思います。日本語の場合、シングルバイト文字とマルチバイト文字の組み合わせを持つMBCS (マルチバイト文字セット) しかありません。したがって、MBCS で保存された日本語テキスト ファイルの場合、日本語以外の文字 (英語の文字と数字、および英数字以外の一般的な文字) は 1 バイトとして保存され、日本語の文字は 2 バイトとして保存されます。
各文字が正確に 2 バイトである統一DBCS (2 バイト文字セット) であるUNICODEを参照していないと仮定します。実際、より正確に言うと、最近の UNICODE にも複数の DBCS があります。これは、文字セットが他の文字に対応できなくなったためです。一部の UNICODE 文字は、最初の 2 バイトを先頭文字として持つ 4 バイトで構成されています。
UNICODE ではなく最初のもの (MBCS) を参照している場合、Shift-JIS (より一般的なもの) のような日本語の文字セットがたくさんあります。そこで、Shift-JIS 文字マップを検索することをお勧めします。Shift-JIS以外にも日本語の文字セットマップはありますが。