問題タブ [character-properties]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
16426 参照

python - 正規表現とユニコード

TV エピソードのファイル名 (たとえば、show.name.s01e02.avi) を解析し、(www.thetvdb.com API から) エピソード名を取得し、自動的に適切な名前に変更するスクリプトがあります (番組名 - [01x02 ].avi)

[a-zA-Z0-9'\-]スクリプトは正常に動作しますが、それは、Unicode の表示名を持つファイルで試して使用するまでです(私が持っているすべてのファイルは英語であるため、ほとんどすべてが .

正規表現がアクセント付きの文字などと一致するようにするにはどうすればよいですか? 現在、正規表現の設定セクションは次のようになっています..

0 投票する
5 に答える
2247 参照

regex - Perl の Unicode 文字列で完全に構成された文字のみを一致させるにはどうすればよいですか?

Unicode 文字列内の完全に構成された文字のみを一致させる方法を探しています。

[:print:]この文字クラスを組み込んだ正規表現の実装では、ロケールに依存していますか? たとえば、日本語の「あ」は制御文字ではないため一致しますか、それとも[:print:]常に ASCII コード 0x20 ~ 0x7E になりますか?

制御文字以外のものと一致させるために使用できる、Perl RE を含む文字クラスはありますか? [:print:]ASCII範囲の文字のみが含まれている場合、私もそうすると思い[:cntrl:]ます。

0 投票する
5 に答える
1832 参照

python - plyの正規表現でUnicodeを一致させる

識別子を一致させていますが、問題があります。識別子にUnicode文字を含めることができます。したがって、物事を行うための古い方法では十分ではありません。

私のマークアップ言語パーサーでは、明示的に使用する文字を除くすべての文字を許可することでUnicode文字を照合します。これは、マークアップ言語には2つまたは3つの文字しかないため、その方法でエスケープする必要があるためです。

すべてのUnicode文字をPython正規表現およびプライと一致させるにはどうすればよいですか?また、これはまったく良い考えですか?

プログラムの識別子(変数名など)として、Ω»«°foo²väliπなどの識別子を使用できるようにしたいと思います。なんてこった!実用的であれば、自分の言語でプログラムを書いてほしいです!とにかく、ユニコードは今日、さまざまな場所でサポートされており、普及するはずです。

編集:POSIX文字クラスはPython正規表現によって認識されないようです。

編集:私が必要なものをよりよく説明するため。すべてのUnicode印刷可能文字に一致するが、ASCII文字にはまったく一致しない正規表現が必要です。

編集:r "\ w"は私が望むことを少し行いますが、«»とは一致しません。また、数字と一致しない正規表現も必要です。

0 投票する
4 に答える
5903 参照

python - Pythonの文字のUnicodeブロック

Pythonで文字のUnicodeブロックを取得する方法はありますか? unicodedataモジュールには必要なものがないようで、そのための外部ライブラリが見つかりませんでした。

Character.UnicodeBlock.of()基本的に、 Javaと同じ機能が必要です。

0 投票する
12 に答える
158399 参照

javascript - JavaScript で Unicode 対応の正規表現を使用するにはどうすればよいですか?

文字またはマークのカテゴリ (ASCII カテゴリだけでなく) の任意のコードポイントに一致するものに似たものがあるはずであり\w、できれば句読点などの [[P*]] などのフィルターを備えている必要があります。

0 投票する
2 に答える
97565 参照

python - PythonとUnicodeによる正規表現

文字列'بِسْمِاللَّهِالرَّحْمَٰنِالرَّحِيمِ'からいくつかのUnicode記号を削除する必要があります

私は彼らが確かにここに存在することを知っています。私は試した:

しかし、それは機能しません。文字列は同じままです。私は何が間違っているのですか?

0 投票する
5 に答える
1420 参照

python - Unicode 名の検証

ASCII では、名前の検証はそれほど難しくありません。すべての文字がアルファベットであることを確認してください。

しかし、Unicode (utf-8) ではどうでしょうか? 特定の文字列にコンマやアンダースコア (ASCII スコープ外) が含まれていないことを確認するにはどうすればよいですか?

(理想的には Python で)

0 投票する
4 に答える
1476 参照

perl - 特定のプロパティを持つすべてのUnicode文字のリストを取得するにはどうすればよいですか?

Unicode文字の全範囲をループせずに、特定のプロパティを持つ文字のリストを取得するにはどうすればよいですか?特に、数字であるすべての文字(つまり、一致する文字/\d/)のリストが必要です。を見てきましたUnicode::UCDが、特定の文字のプロパティを決定するのに役立ちますが、プロパティを持つリスト文字を取得する方法はないようです。

0 投票する
2 に答える
410 参照

java - 正規表現を使用した Unicode テキストの検索

Hindi(Devanagri) (UTF-16) で記述されたファイルを検索すると、以下の問題が発生しました。

ファイルには次が含まれます。

तरास ततत जुग नींद ना हा बु

最初の文字 'तर' は त + ् + र の複数のコード ポイントであることに注意してください。'त' を検索すると、最初の文字の त を含む 4 つの一致が得られます。私はJavaを使用しています。

複数のコード ポイント文字の一部ではない「त」を検索するにはどうすればよいですか。

どんな助けでも大歓迎です。:)

0 投票する
1 に答える
1521 参照

java - Java /POSIX正規表現の`{\pGraph}`に相当するUnicodeはありますか?

java.util.Patternのドキュメントによると、POSIX文字クラス\p{Graph}[:graph:]POSIX表記)は「可視文字:[\p{Alnum}\p{Punct}]と一致します。ただし、これはASCII文字のみに制限されています。(表示されている)Unicode文字を照合するための同等のクラスまたは式はありますか?