0

重複の可能性:
JavaでプログラムによってWordドキュメントをHTMLに変換する

.docxファイルを取得して.htmlファイルとして開くプログラムがありますが、htmlに変換すると、読み取り不可能な文字列しか表示されません。後で解析する必要があるため、このファイルのhtmlが必要です。以下の方法を使用してファイルを開くと、次のような読み取り不可能なテキストが表示されます:úL] iN?#tBd!?^ý?e "0©?®??AäúsIp?¸ü?D? ?Eâcr&Æl\Fâÿ2qJ?U ??IúK&þIb

    FileInputStream fileInput = null;
    BufferedInputStream myBuffer = null;
    DataInputStream dataInput = null;
    fileInput = new FileInputStream(selectedFile);
    myBuffer = new BufferedInputStream(fileInput);
    dataInput = new DataInputStream(myBuffer);
    StringBuilder nHtmlText = new StringBuilder();
    while (dataInput.available() != 0) {
        System.out.println(dataInput.readLine());
        nHtmlText.append(dataInput.readLine());
    }
    htmlText = nHtmlText.toString();

これを解析して保存するためのクリーンで読み取り可能なhtmlファイルを取得する方法はありますか?

4

3 に答える 3

1

いいえ。

あなたはdocxファイルの生のコンテンツを読んでいます。これはhtmlではなくzip形式のxmlです。ここを参照してください。docxをhtmlに変換するために何かが必要になります。2つは非常に異なります。

于 2012-10-28T16:31:51.443 に答える
1

Docx4jは、docxファイルを開いたり、読み取ったり、操作したりできるJavaライブラリです。私は過去にそれをうまく使用しました。

また、ファイルの内容をHTMLにエクスポートする機能もあります。詳細については、http ://www.docx4java.org/svn/docx4j/trunk/docx4j/docs/Docx4j_GettingStarted.htmlを参照してください(セクションdocx to (X)HTMLはページの約半分です)

于 2012-10-28T17:32:59.547 に答える
0

.docxファイルをに変換する場合.htmlは、バイナリファイルであるため、ファイルを直接読み取ることはできません。これにはJODConverterを使用できます。私はこれを個人的に使用していませんが、この質問はこの質問とほぼ同じです。

于 2012-10-28T16:29:23.140 に答える