私は tika 1.1 を使用しています。tika がファイルからコンテンツを抽出するのに時間がかかるという問題に直面しています。1MB の pdf/doc ファイルを抽出するには、約 3 秒かかります。パフォーマンスを向上させる方法はありますか? パフォーマンスの向上に役立つチューニング、構成。
私はtika 1.4を試しましたが、残念ながら同じpdf時間は〜3.2秒です。
私は BodyContentHandler を使用しています。
public class TikkaExtractor {
public static void main(String[] args) throws Exception {
BodyContentHandler handler = new BodyContentHandler(10000);
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
InputStream content = TikkaExtractor.class.getResourceAsStream("demo.pdf");
parser.parse(content, handler, metadata, new ParseContext());
ContentHandlerDecorator contentHandlerDecorator = new ContentHandlerDecorator(handler);
String s = contentHandlerDecorator.toString();
content.close();
}
}