unicode - ヒンディー語のアクセント付き文字の Unicode 範囲は?

Question

ヒンディー語文字セットの「o」のような形のすべての Unicode リストを収集しようとしています。実際、アクセントを示すために個別の文字を使用する任意の文字 (任意の言語の) のリストの方が適切です。

この unicode-list を RegExp で使用するつもりです。

入力テキストフィールドに出力して文字範囲のリストを編集しようとしましたが、このテキストを編集すると奇妙な問題が発生します (キーボードカーソルが正しい文字に配置されず、選択が突然消えたり、誤ってワープしたりします...言い換えれば... ヒンディー語の地獄!)

私もこれを Notepad++ で試してみましたが、反応はよかったのですが、最終的には Flash Player のテキストフィールドのようにうまくいきませんでした。これは、[] ブロック (ヌル?) 文字を削除しているときに特に発生するようです。それらのいくつかは、奇妙な行動を引き起こします。

とにかく、私が欲しいのはアクセントのリストだけです。いくつかの例を下の画像に示します (ただし、すべてのアクセントが必要です)。

ここに画像の説明を入力

ありがとう！

score 6 · Accepted Answer

ここで、言語別にグループ化された Unicode 範囲のリストを含む PDF を見つけることができます: http://unicode.org/charts/

ヒンディー語の場合、おそらくDevanagariまたはDevanagari Extendedが必要です。

score 3 · Accepted Answer

マークを組み合わせたデーバナーガリーの文字クラスは次のとおりです。

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

これは基本的なデーバナーガリーブロックのみです（デーバナーガリー拡張ではありません）。

score 0 · Accepted Answer

完全なセット (すべての言語用) が必要な場合は、問題なく実行できます。TR -44 ( http://unicode.org/reports/tr44/#Property_Definitions )

Canonical_Combining_Class フィールド ( http://unicode.org/reports/tr44/#Canonical_Combining_Class_Valuesを参照) を使用して、必要な正確な文字をフィルタリングできます。「アクセント」は少しあいまいなので、これ以上正確には言えません:-) General_Category も調べて、フィルターを正しく取得する必要がある場合もあります (特定のマーク、記号、または句読点を除外します)。

そして、これを行うスクリプトは、テキストエディターを台無しにしようとするよりも間違いなく優れています。文字を組み合わせることの特徴の 1 つは、それらが組み合わされることです :-) したがって、あらゆる種類の不可解な結果が得られる可能性があります (次のように: http://www.siao2.com/2006/02/17/533929.aspx :-)

unicode - ヒンディー語のアクセント付き文字の Unicode 範囲は?

3 に答える 3

Related

Reference