-1

この問題は私を夢中にさせています。アクセントのあるこの単語を除外する必要があり、問題が発生しています。\b特に、áéíóúñ のようなアクセント付きの文字ではうまく機能しないと思います。たとえば、次の正規表現があります。

\b(m[ií]s*|m[ií][ao]s*|t[úu]s*|s[u]s*)\b

言葉:

mi - マッチ

み - 一致しない

mias - マッチ

mias - 一致しない

\s代わりに使用しようとしまし\bたが、スペースに一致します。これを修正するにはどうすればよいですか?

ありがとう

4

4 に答える 4

1

この正規表現は、アクセント付きの文字を含まないすべての単語に一致します。

\b[a-zA-Z']+\b

引用符 char を含めると、アポストロフィを含む単語 ("can't" など) も一致することを意味します。

正規表現\wには数字とアンダースコア文字が含まれているため、適切ではないことに注意してください。

于 2013-03-28T02:22:36.333 に答える
0

Unicode 文字を一致させようとしていますが、使用している言語によっては多少複雑になる場合があります。このリンクは、理解を深めるのに役立つ場合があります。

http://www.regular-expressions.info/unicode.html

于 2013-03-28T09:34:22.800 に答える
0

間違っている場合は訂正してください。ただし、Java を使用している場合、アクセントは単語以外の文字と見なされるため、\w と \W で検出できます。これは、使用している言語に関係なく発生する可能性があります。

于 2013-03-28T02:15:26.630 に答える