java - .docxをhtmlに変換すると、判読できないテキストが表示されます

Question

重複の可能性：
JavaでプログラムによってWordドキュメントをHTMLに変換する

.docxファイルを取得して.htmlファイルとして開くプログラムがありますが、htmlに変換すると、読み取り不可能な文字列しか表示されません。後で解析する必要があるため、このファイルのhtmlが必要です。以下の方法を使用してファイルを開くと、次のような読み取り不可能なテキストが表示されます：úL] iN？#tBd！？^ý？e "0©？®??AäúsIp？¸ü？D？？Eâcr＆Æl\Fâÿ2qJ？U ??IúK＆þIb

    FileInputStream fileInput = null;
    BufferedInputStream myBuffer = null;
    DataInputStream dataInput = null;
    fileInput = new FileInputStream(selectedFile);
    myBuffer = new BufferedInputStream(fileInput);
    dataInput = new DataInputStream(myBuffer);
    StringBuilder nHtmlText = new StringBuilder();
    while (dataInput.available() != 0) {
        System.out.println(dataInput.readLine());
        nHtmlText.append(dataInput.readLine());
    }
    htmlText = nHtmlText.toString();

これを解析して保存するためのクリーンで読み取り可能なhtmlファイルを取得する方法はありますか？

score 1 · Accepted Answer

いいえ。

あなたはdocxファイルの生のコンテンツを読んでいます。これはhtmlではなくzip形式のxmlです。ここを参照してください。docxをhtmlに変換するために何かが必要になります。2つは非常に異なります。

score 1 · Accepted Answer

Docx4jは、docxファイルを開いたり、読み取ったり、操作したりできるJavaライブラリです。私は過去にそれをうまく使用しました。

また、ファイルの内容をHTMLにエクスポートする機能もあります。詳細については、http ：//www.docx4java.org/svn/docx4j/trunk/docx4j/docs/Docx4j_GettingStarted.htmlを参照してください（セクションdocx to (X)HTMLはページの約半分です）

score 0 · Accepted Answer

.docxファイルをに変換する場合.htmlは、バイナリファイルであるため、ファイルを直接読み取ることはできません。これにはJODConverterを使用できます。私はこれを個人的に使用していませんが、この質問はこの質問とほぼ同じです。

java - .docxをhtmlに変換すると、判読できないテキストが表示されます

3 に答える 3

Related

Reference