1

.doc ファイルからテキストを抽出するために、以下のコード スニペットを使用しました

HWPFDocument document = new HWPFDocument(new FileInputStream(inputFile));
Range range = document.getRange();
        int len = range.numParagraphs();
        StringBuilder builder = new StringBuilder();

        for (int i = 0; i < len; i++) {
            builder.append(range.getParagraph(i).text());
        }

HWPFDocument document = new HWPFDocument(new FileInputStream(inputFile));
WordExtractor wordExtractor = new WordExtractor(document);
        String[] paragraphs = wordExtractor.getParagraphText();
        StringBuilder builder = new StringBuilder();
        for (String p : paragraphs) {
            builder.append(p);
        }

ただし、どちらも常に奇妙な文字を出力します。例: PAGEREF_Toc351848910\h10HYPERLINK\l _Toc351848911 CITATIONPla\l1033[HYPERLINK\l"Pla"13]。だから、.docファイルからテキストを抽出するときに、それらがどこから来たのか、それらを削除する方法を知りたい

前もって感謝します

4

1 に答える 1