Office.PARAGRAPH_COUNT
PDF から段落数 ( ) を読み取る次のコードがあるとします。
TikaInputStream pdfStream = TikaInputStream.get(new File("some-doc.pdf"));
ContentHandler handler = new DefaultContentHandler();
Metadata pdfMeta = new Metadata();
ParseContext pc = new ParseContext();
Parser parser = TikaConfig.getDefaultConfig().getParser();
parser.parse(pdfStream, handler, pdfMeta, pc);
int pdfParagraphCount = pdfMeta.getInt(Office.PARAGRAPH_COUNT);
ティカはpdfParagraphCount
:
- PDF のメタデータにカウントを照会するだけですか?; またはによって
- PDF全体を読み取るときに、パーサーに「段落カウント」アルゴリズムを適用しますか?
前者の場合、カウントを保持するメタデータ フィールドは書き込み可能ですか? つまり、それは間違っている可能性がありますか?iText または PDFbox を使用するジョーカーは、フィールドを操作して不正確にすることができますか?
TikaにPDFファイルの読み取りとして(正確には、アルゴリズムまたは戦略を適用することによって)段落をカウントさせる方法はありますか?
基本的に、PDF の段落数が必要であり、完全に正確である必要があり、可能性がなく、破損した/正しくない、書き込み可能なメタデータ フィールドが必要です (元の PDF を自分で作成しないため)。前もって感謝します。