テキストを分割し、単語、数字、およびハイフンでつながれた構成単語のみを取得する必要があります。ラテン語も取得する必要があるため、\p{L}
é、ú ü ã などを取得する を使用しました。例は次のとおりです。
String myText = "Some latin text with symbols, ? 987 (A la pointe sud-est de l'île se dresse la cathédrale Notre-Dame qui fut lors de son achèvement en 1330 l'une des plus grandes cathédrales d'occident) : ! @ # $ % ^& * ( ) + - _ #$% " ' : ; > < / \ | , here some is wrong… * + () e -"
Pattern pattern = Pattern.compile("[^\\p{L}+(\\-\\p{L}+)*\\d]+");
String words[] = pattern.split( myText );
この正規表現の何が問題になっていますか? "("
、"+"
、"-"
、"*"
などの記号に一致するのはなぜ"|"
ですか?
結果の一部は次のとおりです。
dresse // OK
sud-est // OK
occident) // WRONG
987 // OK
() // WRONG
(a // WRONG
* // WRONG
- // WRONG
+ // WRONG
( // WRONG
| // WRONG
正規表現の説明は次のとおりです。
[^\p{L}+(\-\p{L}+)*\d]+
* Word separator will be:
* [^ ... ] No sequence in:
* \p{L}+ Any latin letter
* (\-\p{L}+)* Optionally hyphenated
* \d or numbers
* [ ... ]+ once or more.