Apache tika を使用して RTF コンテンツを含む 1 つのドキュメントを解析していますが、例外が発生しています。ドキュメントの内容を提供していません。
ここにコードがあります:
public String contentEx(File f) throws IOException, SAXException,
TikaException {
System.out.println(f.getName());
InputStream is = new FileInputStream(f);
Parser ps = new AutoDetectParser();
BodyContentHandler bch = new BodyContentHandler();
Metadata metadata = new Metadata();
ps.parse(is, bch, metadata, new ParseContext());
return bch.toString();
}
しかし、このメソッドを次のように呼び出したとき:
public static void main(String[] args) throws IOException, SAXException,
TikaException {
StanfrdEntityExtr see = new StanfrdEntityExtr()
File Resum_F = new File("/home/rahul/Documents/resumes/212/swetank.docx");
String s1 = see.contentEx(Resum_F);
}
それは例外を与えています:
Exception in thread "main" org.apache.tika.exception.TikaException: Unexpected RuntimeException from org.apache.tika.parser.rtf.RTFParser@39614c6
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120)
at stranfordParse.StanfrdEntityExtr.contentEx(StanfrdEntityExtr.java:92)
at stranfordParse.StanfrdEntityExtr.main(StanfrdEntityExtr.java:50)
Caused by: java.lang.ArrayIndexOutOfBoundsException: 9
at org.apache.tika.parser.rtf.TextExtractor.processControlWord(TextExtractor.java:872)
at org.apache.tika.parser.rtf.TextExtractor.parseControlWord(TextExtractor.java:566)
at org.apache.tika.parser.rtf.TextExtractor.parseControlToken(TextExtractor.java:492)
at org.apache.tika.parser.rtf.TextExtractor.extract(TextExtractor.java:459)
at org.apache.tika.parser.rtf.TextExtractor.extract(TextExtractor.java:448)
at org.apache.tika.parser.rtf.RTFParser.parse(RTFParser.java:56)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:242)
... 4 more
この例外を解決するには? apache Tika を使用してこのドキュメントの内容を正しく印刷するには? いくつかの解決策を見つけましたが、機能していません。
アイデアをください!どんな助けでも大歓迎です!