次のようなxmlファイルがあります。
<Header>
<Type>TestType</Type>
<Owner>Me</Owner>
</Header>
ĺß™¸Ű;?źÉćáţ¬=ńgăűßEŶáCórýjąŞŢđ·I_§Ä†ÉD¤ďsĂŢŘö¤xi¦Ö†5ÚPMáx^š‡âő
あの変な文字はバイナリコード化されたデータです。
私はそれを解析するのに問題があります。Type と Owner ノードの値と Header の後のデータを読み取るだけです。そのデータは大きくなる可能性があります。これは基本的に、その後にデータが追加された xml です。ヘッダーは常に で始まり、 で終わります。その中の子ノードの数は変更できます
私は単純な解析を試みました:
DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
Document doc = dBuilder.parse(f);
そして私が得たのは:
com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 3-byte UTF-8 sequence.