parsing - Tika1.3 (+lucene4.2) を使用して pdf を解析できません

翻译自：https://stackoverflow.com/questions/16424934 2013-05-07T17:19:16.190

129 次

PDFファイルを解析してそのメタデータとテキストを取得しようとしていますが、まだ必要な結果が得られません。私はそれがばかげた間違いだと確信していますが、私はそれを見ることができません.ファイルd.pdfが存在し、プロジェクトのルートフォルダにあります.インポートも正しいです.

public class MultiParse {
      public static void main(final String[] args) throws IOException,
                  SAXException, TikaException {
            Parser parser = new AutoDetectParser();
            File f = new File("d.pdf");        
            System.out.println("------------ Parsing a PDF:");
            extractFromFile(parser, f);
      }

      private static void extractFromFile(final Parser parser,
                  final File f ) throws IOException, SAXException,
                  TikaException {
            BodyContentHandler handler = new BodyContentHandler(10000000);
            Metadata metadata = new Metadata();
            InputStream is = TikaInputStream.get(f);
            parser.parse(is, handler, metadata, new ParseContext());
            for (String name : metadata.names()) {
                  System.out.println(name + ":\t" + metadata.get(name));
            }
      }
}

出力:エラーはありませんが、..あまりエラーもありません:(

------------ Parsing a PDF:
Content-Type:   application/pdf

parsing - Tika1.3 (+lucene4.2) を使用して pdf を解析できません

0 に答える 0

Related

Reference