0

I'm doing topic modelling on a pdf e-book and need to extract text paragraph by paragraph. For this I use apache pdfBox which is efficiently extract text from pdf.

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

But I cannot extract paragraphs separately. This tool provides a way to set the paragraph start/end identifier, but I need to know the paragraph break identifier for this.

Is there a way to do this, or if there some other tool available which can do paragraph extraction effectively?

4

1 に答える 1

1

PdfNitro は、段落を抽出するために私が見つけた最良のツールです。

このツールの唯一の問題は、改ページを段落の区切りと見なすことですが、それ以外の場合はうまく機能します。このツールは、14 日間の試用版でテストできます。

于 2011-04-17T01:47:31.853 に答える