.docxファイルを取得して.htmlファイルとして開くプログラムがありますが、htmlに変換すると、読み取り不可能な文字列しか表示されません。後で解析する必要があるため、このファイルのhtmlが必要です。以下の方法を使用してファイルを開くと、次のような読み取り不可能なテキストが表示されます:úL] iN?#tBd!?^ý?e "0©?®??AäúsIp?¸ü?D? ?Eâcr&Æl\Fâÿ2qJ?U ??IúK&þIb
FileInputStream fileInput = null;
BufferedInputStream myBuffer = null;
DataInputStream dataInput = null;
fileInput = new FileInputStream(selectedFile);
myBuffer = new BufferedInputStream(fileInput);
dataInput = new DataInputStream(myBuffer);
StringBuilder nHtmlText = new StringBuilder();
while (dataInput.available() != 0) {
System.out.println(dataInput.readLine());
nHtmlText.append(dataInput.readLine());
}
htmlText = nHtmlText.toString();
これを解析して保存するためのクリーンで読み取り可能なhtmlファイルを取得する方法はありますか?