私は正規表現の専門家ではありませんが、制御できない入力を解析する必要があります。また、Azや0〜9のない文字列をすべてフィルターで除外する必要があります。
これを実行すると、
Pattern p = Pattern.compile("^[a-zA-Z0-9]*$"); //fixed typo
if(!p.matcher(gottenData).matches())
System.out.println(someData); //someData contains gottenData
特定のスペース+不明な記号がどういうわけかフィルターをすり抜けます(gottenDataは赤い長方形です):
ご参考までに、テキストも表示されますが、すべてがそうであるわけではありません。
今のところ、[?]には文字列も含まれている限り、問題ありません。
助けてください。
[編集](非常に大きい)入力からわかる限り、[?]は空白であるか、まったく何もないかのどちらかです。ある種のエンコーディングの問題があるかもしれませんし、#textノードと関係があるかもしれません(入力はxmlです)