問題タブ [character-properties]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 大文字と小文字を区別するUnicode文字列とPythonの正規表現の照合
小文字とそれに続く大文字を一致させたいとすると、次のようなことができます。
ここで、Unicode文字列に対して同じことを実行します。つまり、「aÅ」や「yÜ」などに一致させます。
試してみました
しかし、それは機能しません。
手がかりはありますか?
unicode - 発音区別符号の組み合わせの特性
発音区別符号を組み合わせる場合、それらは文字としてカウントされますか?なぜなら、私が知る限り、それらは整形式のUnicodeで他の文字としか組み合わせることができないからです。
Unicodeコードポイントが文字であるかどうかを判断するICU関数は、1つのコードポイントしか使用しないため、特定のコードポイントについて、それらが発音区別符号と組み合わされているかどうか、または発音区別符号であるかどうか、何と組み合わされているかを知ることはできません。次のような構造を使用して、Unicode対応の正規表現に似たものを実装しようとしています。
codepoint
ただし、以前のコードポイントや他の照合マークと照合される発音区別符号が実際にある場合にどうなるかについては、かなり心配しています。
これは安全ですか?または、発音区別符号やその他の照合マークを明示的に見つけて無視する必要がありますか?
編集:私が本当にする必要があるのは、コードポイントではなく、文字を繰り返すことです。
この質問はXY問題の犠牲者です。私の実際の問題について質問する必要があります。
c++ - 文字ごとに Unicode コードポイントを反復する
一連の Unicode コードポイントがあります。私が実際に行う必要があるのは、これらのコードポイントを一連のコードポイントではなく一連の文字として繰り返し処理し、個々の文字のプロパティを決定することです。たとえば、文字などです。
たとえば、私が Unicode 対応のテキスト ボックスを作成していて、ユーザーが複数のコードポイントである Unicode 文字を入力したとします。たとえば、"e with diacritic" です。この特定の文字も 1 つのコードポイントとして表すことができ、その形式に正規化できることはわかっていますが、一般的なケースではそれが可能だとは思いません。バックスペースを実装するにはどうすればよいですか? 複数のコードポイントを入力した可能性があるため、最後のコードポイントを単に消去することはできません。
一連の Unicode コードポイントを文字として反復処理するにはどうすればよいですか?
編集: ICU が提供する Break Iterators は、私が必要としているもののほとんどのようです。ただし、私は ICU を使用していないため、独自の同等の機能を実装する方法に関する参照は、受け入れられる回答になります。
別の編集: Windows API が実際にこの機能を提供していることが判明しました。MSDN は、すべての文字列関数を 1 か所にまとめることをあまり得意としていません。CharNextは私が探している関数です。
python - Python reでUnicode文字のみを照合する
3 つのグループを抽出したい文字列があります。
月名には非ASCII文字が含まれている可能性があるため、[A-Za-z]
うまくいきません:
使用できます\w
が、数字とアンダースコアに一致します:
[:alpha:]を使用しようとしましたが、機能しません:
\w
なしでどうにかして一致させることができれば[_0-9]
、どうすればよいかわかりません。そして、これを行う方法を見つけたとしても[:alpha:]
、Pythonで機能するような準備が整ったショートカットはありますか?
regex - Perl スクリプトが停止します。エラー: Unicode プロパティ定義 ASCII が見つかりません
いくつかの perl スクリプトを継承しました。(私は perl プログラマーではありません)。
"can't find unicode property definition ascii"
以下の行にエラーが表示されます
このエラーにより、プログラムの実行が停止しますか? プログラムが停止する前に出力される最後の行です。
その同じ行は、あきらめる前に 1,000 回以上実行されています。問題は何ですか?
私は、 $value の値が問題の原因ではないことに傾いています。私は正しいですか?
{ascii} がユニコード定義から削除されたように思えます。これを行うことはできますか、それとも間違ったツリーを完全に吠えていますか?
javascript - javascriptの正規表現でUnicode文字グループを使用する方法は?
javascript で "\p{L}" のようなパターンをネイティブに使用する方法はありますか?
(これは perl 互換の構文だと思います)
まず、Firefox のサポートと Webkit に興味があります。
regex - `\p{name}`で指定できる`unicodeグループ`と`ブロック範囲`とは何ですか?
文字クラスで指定できるunicode groups
andは何 ですか?block ranges
\p{name}
例えば
名前と説明のリストはどこにありますか?
regex - 正規表現は % を受け入れません
この一連の RegEx の何が問題になっていますか/^[\p{L}\p{N}]+/u
。私の先輩が% openmovedに入ったとき、正規表現はfalseを返します。この形式を受け入れるために必要です
% オープンマインド
100% オープンマインド オープン
マインド 100%
式には何を追加する必要がありますか? ユーザーが%
最初に入力したり、特殊文字を入力したりしても、入力を受け入れるようにします。
java - Unicode区切り文字を使用してこぼれた文字列
Javaで区切り文字として「-」を使用して文字列を分割する必要があります。例:「シングルルーム-ご滞在をお楽しみください」
ロケールに応じて、英語とドイツ語で同じデータが提供されます。したがって、通常のstring.split( "-")を使用することはできません。「-」文字のUnicodeは8212(dec)またはx2014(hex)です。Unicodeを使用して文字列を分割するにはどうすればよいですか?