java - tikaで.pptファイルのテキストを抽出するには?

翻译自：https://stackoverflow.com/questions/14696371 2013-02-04T21:55:47.743

2579 次

AutoDetectParserクラスを使用して .pdf ファイルのテキストを tika で抽出しました。しかし、同じコードを使用して .ppt ファイルのテキストを抽出すると、例外がスローされます。どうやってするの？ありがとう

編集:
私が使用したコードは次のとおりです。

File file = new File("1.ppt");
InputStream input = new FileInputStream(file);
Parser autoDetectParser = new AutoDetectParser();
Metadata metadata = new Metadata();
StringWriter writer = new StringWriter();
ContentHandler handler = new WriteOutContentHandler(writer);
autoDetectParser.parse(input, handler, metadata, new ParseContext());

例外は次のとおりです。

java.lang.NoSuchFieldError: SMALLER_BIG_BLOCK_SIZE_DETAILS
at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:93)
at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:190)
at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:184)
at org.apache.tika.parser.microsoft.POIFSContainerDetector.getTopLevelNames(POIFSContainerDetector.java:371)
at org.apache.tika.parser.microsoft.POIFSContainerDetector.detect(POIFSContainerDetector.java:165)
at org.apache.tika.detect.CompositeDetector.detect(CompositeDetector.java:61)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:113)
at ppt.PPTParserTest.test3(PPTParserTest.java:52)

私はjars、私のclasspath.

java - tikaで.pptファイルのテキストを抽出するには?

2 に答える 2

Related

Reference