次のテキスト(文字列)があります:
System.out.println(text)
..............
BLOOMINGTON, IL 61710
Page 4 of 5
8/2/2009file://C:\hjO Fhjes\hShjort_2012w211231_0323212_575.htm
Location: EAST JEFRYN, NY
..............
"Page"
その単語で始まり、で終わる部分文字列を取り除く必要があります".htm"
私は次のことを試しました:
Pattern patternP = Pattern.compile("(?:Page.*?)(\\n+)+htm", Pattern.DOTALL);
Matcher matcherP = patternP.matcher(filtered);
matcherP.find();
String page = matcherP.group();
text = text.replace(page, "");
しかし、これはフィルタリングされません。エスケープ文字が原因だと思います。どうすれば改善できますか?