“character-properties”の関連問題_Stack Overflow日本語サイト

0 投票する

4 に答える

16426 参照

python - 正規表現とユニコード

TV エピソードのファイル名 (たとえば、show.name.s01e02.avi) を解析し、(www.thetvdb.com API から) エピソード名を取得し、自動的に適切な名前に変更するスクリプトがあります (番組名 - [01x02 ].avi)

[a-zA-Z0-9'\-]スクリプトは正常に動作しますが、それは、Unicode の表示名を持つファイルで試して使用するまでです(私が持っているすべてのファイルは英語であるため、ほとんどすべてが .

正規表現がアクセント付きの文字などと一致するようにするにはどうすればよいですか? 現在、正規表現の設定セクションは次のようになっています..

dbr

2008-08-18T09:41:14.273

0 投票する

5 に答える

2247 参照

regex - Perl の Unicode 文字列で完全に構成された文字のみを一致させるにはどうすればよいですか?

Unicode 文字列内の完全に構成された文字のみを一致させる方法を探しています。

[:print:]この文字クラスを組み込んだ正規表現の実装では、ロケールに依存していますか? たとえば、日本語の「あ」は制御文字ではないため一致しますか、それとも[:print:]常に ASCII コード 0x20 ～ 0x7E になりますか?

制御文字以外のものと一致させるために使用できる、Perl RE を含む文字クラスはありますか? [:print:]ASCII範囲の文字のみが含まれている場合、私もそうすると思い[:cntrl:]ます。

regex perl unicode locale character-properties

dreamlax

2008-10-15T03:10:13.510

0 投票する

5 に答える

1832 参照

python - plyの正規表現でUnicodeを一致させる

識別子を一致させていますが、問題があります。識別子にUnicode文字を含めることができます。したがって、物事を行うための古い方法では十分ではありません。

私のマークアップ言語パーサーでは、明示的に使用する文字を除くすべての文字を許可することでUnicode文字を照合します。これは、マークアップ言語には2つまたは3つの文字しかないため、その方法でエスケープする必要があるためです。

すべてのUnicode文字をPython正規表現およびプライと一致させるにはどうすればよいですか？また、これはまったく良い考えですか？

プログラムの識別子（変数名など）として、Ω»«°foo²väliπなどの識別子を使用できるようにしたいと思います。なんてこった！実用的であれば、自分の言語でプログラムを書いてほしいです！とにかく、ユニコードは今日、さまざまな場所でサポートされており、普及するはずです。

編集：POSIX文字クラスはPython正規表現によって認識されないようです。

編集：私が必要なものをよりよく説明するため。すべてのUnicode印刷可能文字に一致するが、ASCII文字にはまったく一致しない正規表現が必要です。

編集：r "\ w"は私が望むことを少し行いますが、«»とは一致しません。また、数字と一致しない正規表現も必要です。

python regex unicode ply character-properties

Cheery

2008-10-26T16:35:07.803

0 投票する

4 に答える

5903 参照

python - Pythonの文字のUnicodeブロック

Pythonで文字のUnicodeブロックを取得する方法はありますか? unicodedataモジュールには必要なものがないようで、そのための外部ライブラリが見つかりませんでした。

Character.UnicodeBlock.of()基本的に、 Javaと同じ機能が必要です。

python unicode character-properties

itsadok

2008-10-28T15:56:18.130

0 投票する

12 に答える

158399 参照

javascript - JavaScript で Unicode 対応の正規表現を使用するにはどうすればよいですか?

文字またはマークのカテゴリ (ASCII カテゴリだけでなく) の任意のコードポイントに一致するものに似たものがあるはずであり\w、できれば句読点などの [[P*]] などのフィルターを備えている必要があります。

javascript regex unicode character-properties

Amit

2008-11-11T12:00:33.480

0 投票する

2 に答える

97565 参照

python - PythonとUnicodeによる正規表現

文字列'بِسْمِاللَّهِالرَّحْمَٰنِالرَّحِيمِ'からいくつかのUnicode記号を削除する必要があります

私は彼らが確かにここに存在することを知っています。私は試した：

しかし、それは機能しません。文字列は同じままです。私は何が間違っているのですか？

python regex character-properties

bsn

2008-12-26T14:40:04.597

0 投票する

5 に答える

1420 参照

python - Unicode 名の検証

ASCII では、名前の検証はそれほど難しくありません。すべての文字がアルファベットであることを確認してください。

しかし、Unicode (utf-8) ではどうでしょうか? 特定の文字列にコンマやアンダースコア (ASCII スコープ外) が含まれていないことを確認するにはどうすればよいですか?

(理想的には Python で)

python unicode validation character-properties

Gilbert

2009-03-09T15:30:47.243

0 投票する

4 に答える

1476 参照

perl - 特定のプロパティを持つすべてのUnicode文字のリストを取得するにはどうすればよいですか？

Unicode文字の全範囲をループせずに、特定のプロパティを持つ文字のリストを取得するにはどうすればよいですか？特に、数字であるすべての文字（つまり、一致する文字/\d/）のリストが必要です。を見てきましたUnicode::UCDが、特定の文字のプロパティを決定するのに役立ちますが、プロパティを持つリスト文字を取得する方法はないようです。

perl unicode character-properties

2009-07-25T16:18:40.127

0 投票する

2 に答える

410 参照

java - 正規表現を使用した Unicode テキストの検索

Hindi(Devanagri) (UTF-16) で記述されたファイルを検索すると、以下の問題が発生しました。

ファイルには次が含まれます。

तरास ततत जुग नींद ना हा बु

最初の文字 'तर' は त + ् + र の複数のコードポイントであることに注意してください。'त' を検索すると、最初の文字の त を含む 4 つの一致が得られます。私はJavaを使用しています。

複数のコードポイント文字の一部ではない「त」を検索するにはどうすればよいですか。

どんな助けでも大歓迎です。:)

java unicode character-properties ligature

user162703

2009-08-25T13:09:57.687

0 投票する

1 に答える

1521 参照

java - Java /POSIX正規表現の`{\pGraph}`に相当するUnicodeはありますか？

java.util.Patternのドキュメントによると、POSIX文字クラス\p{Graph}（[:graph:]POSIX表記）は「可視文字：[\p{Alnum}\p{Punct}]」と一致します。ただし、これはASCII文字のみに制限されています。（表示されている）Unicode文字を照合するための同等のクラスまたは式はありますか？

java regex unicode posix character-properties

2009-09-09T13:42:45.433

問題タブ [character-properties]

Reference