2

こんにちは、PDF ファイルをテキスト ファイルに変換したいと考えています。PDFファイルをテキストファイルに変換しています。ただし、PDF ファイルに正確に含まれるテキストの形式は保持されません。

私を助けてください。

4

3 に答える 3

4

テキスト ファイル自体に書式を含めることはできません。

プレーン テキスト ファイルにはテキストしか含まれていないため、フォーマットを保持することはできません。テキスト ファイル内に HTML マークアップが含まれている可能性がありますが、これを HTML ファイルと呼びます。それ以外の場合は、代わりにリッチ テキスト形式 (RTF)、Microsoft Word、OpenOffice、またはその他のドキュメント タイプに変換しようとする必要があります。

于 2012-01-05T13:04:42.747 に答える
1

これはあなたを助けることができます。

File f = new File(fileName);
        if (!f.isFile()) {  
            return null;  
        } 


        try {
            parser = new PDFParser(new FileInputStream(f));
        } catch (Exception e) {
            return null;
        }  

        try {
            parser.parse();
            cosDoc = parser.getDocument();  
            pdfStripper = new PDFTextStripper();
           /* pdfStripper.setStartPage(2); 
            pdfStripper.setEndPage(3);*/  
            pdDoc = new PDDocument(cosDoc);
            parsedText = pdfStripper.getText(pdDoc);
        } catch (Exception e) {  
            System.out.println("An exception occured in parsing the PDF Document.");  
            e.printStackTrace();  
            try {  
                   if (cosDoc != null) cosDoc.close();  
                   if (pdDoc != null) pdDoc.close();  
               } catch (Exception e1) {  
               e.printStackTrace();  
            }  
            return null;  
        }
于 2013-06-14T12:47:27.393 に答える
1

Erick Robertsonが言ったように、PDFBoxはこれに役立ちます。フォーマットが失われる可能性があります

PDFテキストパーサーを参照してください:PDFBoxを使用してJavaでPDFをテキストに変換する

于 2012-01-05T13:06:49.810 に答える