7

...のようなパターンで使用する場合"\\p{someCharacterClass}"
私はいくつかを使用した/見ました:

  • 低い
  • アッパー
  • InCombiningDiacriticalMarks
  • アスキー

サポートされているすべての組み込み文字クラスの最終的なリストは何ですか? それはどこに文書化されていますか?正確な意味は何ですか?

編集済み...

のjavadocを参照する「RTFM」の回答がたくさんあるようですPattern。この質問をする前に私が最初に見た場所です。誰もが明確に理解できるように、Pattern の javadoc は上記のクラスのいずれについても言及していません。

「正しい」答えは、ページのどこかに「InCombiningDiacriticalMarks」が記載されており、「Unicode Standards」へのあいまいな参照ではありません。

4

5 に答える 5

11

ドキュメントPatternの「Unicodeサポート」セクションには次のように記載されています。

サポートされているカテゴリは、Character クラスで指定されたバージョンの Unicode 標準のカテゴリです。カテゴリ名は、規格で定義されているものであり、規範的かつ参考的なものです。Pattern でサポートされているブロック名は、 で受け入れられ、定義されている有効なブロック名ですUnicodeBlock.forName

状態のドキュメントUnicodeBlock.forName:

ブロック名は、Unicode 標準によって決定されます。

http://unicode.orgには FAQ があります。Unicode ブロックの決定的なリストはどこで見つけることができますか? :

A: Unicode ブロックとその名前は、Unicode 標準の規範的な部分です。正確なリストは、常にUnicode Character Databaseのファイルの 1 つに保持されていますBlocks.txt

最後に、Blocks.txt次の行があります。

0300..036F; 分音記号の組み合わせ

これらの文字は、Combining Diacritical Marksコード チャート ( Unicode 6.0 Character Code Chartsから) で見つけることができます。

于 2011-12-28T09:26:21.913 に答える
1

パターン API は、 http://www.unicode.org/reports/tr18/で定義されている正規表現レベル 1 に準拠することを示しています。

3 つの優れたテーブル (UCD.html を検索) があり、UCD.html 自体を見てください。

于 2011-12-28T00:09:06.143 に答える
0

仕様はhttp://docs.oracle.com/javase/6/docs/api/java/util/regex/Pattern.htmlです。場合によっては、特定のバージョンの TUS を参照します。その資料はhttp://unicode.orgにあります。

于 2011-12-27T23:22:03.073 に答える
-1

Patternクラスの javadoc を参照してください。

于 2011-12-27T23:22:57.863 に答える