こんにちは、PDF ファイルをテキスト ファイルに変換したいと考えています。PDFファイルをテキストファイルに変換しています。ただし、PDF ファイルに正確に含まれるテキストの形式は保持されません。
私を助けてください。
こんにちは、PDF ファイルをテキスト ファイルに変換したいと考えています。PDFファイルをテキストファイルに変換しています。ただし、PDF ファイルに正確に含まれるテキストの形式は保持されません。
私を助けてください。
テキスト ファイル自体に書式を含めることはできません。
プレーン テキスト ファイルにはテキストしか含まれていないため、フォーマットを保持することはできません。テキスト ファイル内に HTML マークアップが含まれている可能性がありますが、これを HTML ファイルと呼びます。それ以外の場合は、代わりにリッチ テキスト形式 (RTF)、Microsoft Word、OpenOffice、またはその他のドキュメント タイプに変換しようとする必要があります。
これはあなたを助けることができます。
File f = new File(fileName);
if (!f.isFile()) {
return null;
}
try {
parser = new PDFParser(new FileInputStream(f));
} catch (Exception e) {
return null;
}
try {
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
/* pdfStripper.setStartPage(2);
pdfStripper.setEndPage(3);*/
pdDoc = new PDDocument(cosDoc);
parsedText = pdfStripper.getText(pdDoc);
} catch (Exception e) {
System.out.println("An exception occured in parsing the PDF Document.");
e.printStackTrace();
try {
if (cosDoc != null) cosDoc.close();
if (pdDoc != null) pdDoc.close();
} catch (Exception e1) {
e.printStackTrace();
}
return null;
}
Erick Robertsonが言ったように、PDFBoxはこれに役立ちます。フォーマットが失われる可能性があります
PDFテキストパーサーを参照してください:PDFBoxを使用してJavaでPDFをテキストに変換する