Apache Tika を使用して RTF ファイルを解析しようとしています。ファイル内には、複数の列を持つテーブルがあります。
問題は、パーサーが値がどの列にあったかの情報なしで結果を書き出すことです。
私が今していることは次のとおりです。
AutoDetectParser adp = new AutoDetectParser(tc);
Metadata metadata = new Metadata();
String mimeType = new Tika().detect(file);
metadata.set(Metadata.CONTENT_TYPE, mimeType);
BodyContentHandler handler = new BodyContentHandler();
InputStream fis = new FileInputStream(file);
adp.parse(fis, handler, metadata, new ParseContext());
fis.close();
System.out.println(handler.toString());
動作しますが、メタ情報のように知る必要があります。
読み込んだRTFファイルの構造で、HTMLのようなものを出力するハンドラは既にあるのでしょうか?