問題タブ [character-properties]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 英数字の後にスラッシュが続き、再び英数字が続く Java の正規表現
英数字の後にスラッシュ、そして再び英数字を入力として受け取る正規表現が必要です。このためにJavaで正規表現を書くにはどうすればよいですか?
この例は次のとおりです。
次のように正規表現を使用してみました。
しかし、スラッシュの後にチェックせずに abc9/ 形式のすべての文字列を受け入れるという問題があります。
java - Unicode 文字と Java 正規表現の照合 (例)
StackOverflow には、「文字」が正規表現で[a-zA-Z]
. ただし、Unicode では、ほとんどの人が文字と見なす文字がさらに多くあります (すべてのギリシャ文字、キリル文字など)。Unicodeでは、それぞれが「文字」を持つ可能性のある多くのブロックが定義されています。
Java 定義では、アルファベット文字などのPosix クラス を定義していますが、これは US-ASCII でのみ機能するように指定されています。事前定義された文字クラスでは[a-zA-Z_0-9]
、単語が で構成されるように定義されていますが、多くの文字も除外されています。
では、どうすれば Unicode 文字列と適切に一致させることができるでしょうか? これを正しく行う他のライブラリはありますか?
regex - \w は、Unicode 標準で定義されているすべての英数字と一致しますか?
Perl\w
は、Unicode 標準で定義されているすべての英数字と一致しますか?
たとえば、\w
すべての (たとえば) 中国語とロシア語の英数字に一致しますか?
\w
私がテストした非 ASCII 英数字に対して「期待どおり」に実際に一致することを示唆する簡単なテスト スクリプト (以下を参照) を作成しました。しかし、テストは明らかに網羅的ではありません。
javascript - Unicodeの「名前」とJavaScriptの正規表現の照合
JavaScriptでは、Unicodeエスケープシーケンスを使用して、個々のUnicodeコードポイントまたはコードポイント範囲を照合できます。例:
しかし、JavaScriptの正規表現を使用して、Unicodeの「文字」を含める必要がある固有名に一致する正規表現を作成するにはどうすればよいでしょうか。文字の範囲はありますか?JavaScriptの特別な正規表現シーケンスまたは文字クラス?
私のウェブサイトは、ヘブライ語、キリル文字、日本語(カタカナ、ひらがななど)だけでなく、ラテン語ベースの言語である可能性のある名前を検証する必要があるとしましょう。これはJavaScriptで実行可能であるか、Unicodeサポートが優れたバックエンド言語に委任する唯一の正しい選択です。 ?
java - Unicode 単語を含む正規表現
特定の単語を含むすべての文字列に一致させたいと思います。お気に入り:
ただし、Pattern クラスはそれをコンパイルしません。
パラメータをコンパイルするように unicode_case を既に設定していますが、ここで何が問題なのかわかりません
手伝ってくれてありがとう!:)
javascript - Javascript Unicode (ギリシャ語) 正規表現
この正規表現new RegExp("\b"+pat+"\b")をギリシャ語テキストで使用したいのですが、"\b" メタ文字は ASCII 文字のみをサポートしています。
XregExpライブラリを試しましたが、問題を解決できませんでした。
どんな提案でも大歓迎です。
ruby - Rubyで文字のUnicodeプロパティを列挙しますか?
Rubyで文字のすべてのUnicodeプロパティを列挙する方法はありますか?Ruby 1.9のRegexpクラスを使用して、特定の文字が特定のプロパティを持っているかどうかをテストできます(たとえば、句読点some_char =~ /\p{P}/
かどうかをテストsome_char
できます)...しかし、文字は複数のプロパティを持つことができる(
ため(たとえば、句読点とASCIIなど)、文字のすべてのプロパティのリストを取得できると便利です。
おそらく、、またはそれが呼ばれるものを使用して手作業でこれを行うことができますunicode_data.txt
が、これはおそらくすでにどこかで行われているようなもののようです。UnicodeUtils
これらの線に沿って何も持っていないようであり、グーグルは明白なものを何も見つけませんでした。ありがとう!
php - 特殊文字を含む名前の正規表現(Unicode)
さて、私は今一日中正規表現について読んでいますが、それでも正しく理解していません。私がやろうとしているのは名前を検証することですが、インターネット上でこれを見つけることができる関数は、[a-zA-Z]
受け入れる必要のある文字を除外して、使用するだけです。
基本的に、名前が2つ以上の単語であり、数字や特殊文字が含まれていないことを確認する正規表現が必要ですが!"#¤%&/()=...
、単語にはæ、é、Âなどの文字を含めることができます...
受け入れられる名前の例は、「JohnElkjærd」または「AndréSvenson」です。
受け入れられない名前は、「Hans」、「H 4 nn 3 Andersen」、または「MartinHenriksen !」です。
重要な場合は、javascript関数のクライアント側を使用し、phpの唯一の「ネガティブ」サーバー側.match()
を使用したいと思います。preg_replace()
(一致しない文字を削除します)。
どんな助けでも大歓迎です。
更新:わかりました。AlixAxelの回答の
おかげで、重要な部分がサーバー側にあります。
しかし、LightWingの回答のページが示唆しているように、JavaScriptのUnicodeサポートについては何も見つからないため、クライアント側の解決策の半分になり、次のように少なくとも2つの単語と5つ以上の文字をチェックするだけです。
別の方法は、 shiftyの回答で提案されているように、すべてのUnicode文字を指定することです。これは、上記の解決策とともに、次のようなことになる可能性がありますが、少し実用的ではありません。
java - {L} Unicode カテゴリとは何ですか?
を含むいくつかの正規表現に出くわしました[^\\p{L}]
。これが何らかの形式の Unicode カテゴリを使用していることは理解していますが、ドキュメントを確認したところ、次の「L」カテゴリしか見つかりませんでした。
L
この文脈では何ですか?