0

.htm Web ページとして保存された Microsoft Word Doc があります。以下は私が持っているコードです。私の質問は、ドキュメントからテキストを取得して文字列に追加する方法です。段落がタグに設定されていることに気付きました<p class=MsoNormal>。追加したい文字列はdocumentTextです

    String documentText = "";
    FileInputStream fileInput = null;
    BufferedInputStream myBuffer = null;
    DataInputStream dataInput = null;
    fileInput = new FileInputStream(selectedFile);
    myBuffer = new BufferedInputStream(fileInput);
    dataInput = new DataInputStream(myBuffer);
    while (dataInput.available() != 0){
        System.out.println(dataInput.readLine());
    }
4

2 に答える 2

2

HTMLパーサーJerichoHTMLパーサーなどのライブラリを確認するか、この回答で提案されているネイティブHTMLEditorKit.Parser + HTMLEditorKit.ParserCallbackアプローチを使用してください。

于 2012-10-15T15:58:40.537 に答える
2

HTML Parserなどの HTML パーサー ライブラリを使用します。

于 2012-10-15T15:57:52.697 に答える