java - 「。」はいつですか正規表現で一致しませんか?

Question

次の問題が発生しました（簡略化）。私は次のように書いた

Pattern pattern = Pattern.compile("Fig.*");
String s = readMyString();
Matcher matcher = pattern.matcher(s);

1 つの文字列を読み取る際に、"Fig" で始まっていても、マッチャーは一致しませんでした。文字列の次の部分にある不正な文字まで問題を突き止めました。からのcodePoint値1633を持っていました

(int) charAt(i)

しかし、正規表現と一致しませんでした。入力プロセスのどこかで非 UTF-8 エンコーディングが原因だと思います。

Javadocは次のように述べています。

事前定義された文字クラス。任意の文字 (改行文字と一致する場合と一致しない場合があります)

おそらく、これは厳密な意味での文字ではありませんが、文字列の一部です。この問題を検出するにはどうすればよいですか?

更新: 見つけにくい (char)10 が原因でした。上記の私の診断は間違っています。以下のすべての回答は、尋ねられた質問に関連しており、役に立ちます。

score 13 · Accepted Answer

これを確認するのは簡単です：

import java.util.regex.*;

public class Test {
    public static void main(String[] args) {
        Pattern pattern = Pattern.compile(".");
        for (char c = 0; c < 0xffff; c++) {
            String text = String.valueOf(c);
            if (!pattern.matcher(text).matches()) {
                System.out.println((int) c);
            }
        }
    }
}

私のボックスでは、出力は次のとおりです。

これらのうち、10 と 13 はそれぞれ「\n」と「\r」です。133 (U+0085) は「次の行」、8232 (U+2028) は「行区切り」、8233 (U+2029) は「段落区切り」です。

ご了承ください：

これは、基本的な多言語面以外の Unicode 文字をテストしません。
デフォルトのオプションのみを使用します
あなたのキャラクター 1633 (U+0661) の経験と矛盾しているようです。

score 11 · Accepted Answer

.Java 正規表現の文字は、パターンをコンパイルするときにフラグを使用しない限り、行末記号を除くすべての文字と一致します。Pattern.DOTALL

そのためには、次のようなパターンを使用します。

Pattern p = Pattern.compile("somepattern", Pattern.DOTALL);

score 1 · Accepted Answer

正規表現の非印刷文字の操作については、次の 2 つの記事を参照してください。

UTF で正確に作業する場合でも、多くの驚きがあります。

java - 「。」はいつですか 正規表現で一致しませんか?

4 に答える 4

Related

Reference

java - 「。」はいつですか正規表現で一致しませんか?