ruby - Ruby 1.9.3 Regex utf8\wアクセント付き文字

Question

正規表現の\wが国別文字を通常の文字と同じように扱うようにするにはどうすればよいですか？

'ein grüner Hund'.scan(/\S+/u)

["ein"、 "grüner"、 "Hund"]

「ü」を非空白文字として正しくスキャンします。

'ein grüner Hund'.scan(/\w+/u)

["ein"、 "gr"、 "ner"、 "Hund"]

どうやって「ü」も手に入れますか？

ドイツ語、フランス語、ポーランド語の文字だけでなく、解決策も必要です。

score 2 · Accepted Answer

\w文字、数字、またはアンダースコアで機能します。正規表現エンジンは、1 つの Unicode コードポイントを 1つの文字と見なしている可能性があります。その場合、üは複数のコードポイント文字 (2 つのコードポイントとしてエンコードされる)であるため、単一の文字として一致しません。複数のコードポイント文字を照合する場合も、\Xそれが単一のコードポイントであるか複数のコードポイントであるかにかかわらず、単一の Unicode 書記素に一致する which を使用します。

詳細については、これを確認してください。

Ruby がをサポートしているかどうかはわかりません\X。それ以外の場合\p{L}\p{M}*は、アクセント付きの文字に一致するものを使用できます。

score 2 · Accepted Answer

2

試す

'ein grüner Hund'.scan(/[[:word:]]+/u)

ドキュメンテーション

于 2013-02-13T11:01:36.767 に答える

ruby - Ruby 1.9.3 Regex utf8\wアクセント付き文字

2 に答える 2

Related

Reference