java - pdfclown関数「textextractor」を使用してテキストを抽出しています

翻译自：https://stackoverflow.com/questions/16572369 2013-05-15T18:23:29.323

1920 次

pdfclown ライブラリの textextractor を使用中にエラーが発生しました。私が使用したコードは

TextExtractor textExtractor = new TextExtractor(true, true);
for(final Page page : file.getDocument().getPages())
{
  System.out.println("\nScanning page " + (page.getIndex()+1) + "...\n");

  //  Extract the page text!
  Map textStrings = textExtractor.extract(page);

私が得たエラーの一部は

exception in thread 'main' java.lang.exceptionininitializer error
at org.pdfclown.document.contents.fonts.encoding.put
at ......
at ......
<about 30 such lines>
caused by java.lang.nullpointerexception
at java.io.reader.<init><Reader.java:78>
at java.io.inputstreamreader
<about 30 lines more>

また、これは、たとえば私のpdfにいくつかの箇条書きが含まれている場合に発生することもわかりました

項目 1
項目 2
項目 3

そのようなPDFからテキストを抽出するのを手伝ってください。

java - pdfclown関数「textextractor」を使用してテキストを抽出しています

1 に答える 1

Related

Reference