Apache Tikaを使用して、さまざまなドキュメント(ODS、MS Office、PDF)の簡単な処理を行っています。私は少なくとも取得する必要があります:
word count, author, title, timestamps, language etc.
これはそれほど簡単ではありません。私の戦略は、6種類のドキュメントにテンプレートメソッドパターンを使用することです。ここでは、最初にドキュメントの種類を見つけ、それに基づいて個別に処理します。
apache tikaでこれが不要になることはわかっていますが、ドキュメントの形式はまったく異なりますよね?
例えば
InputStream input = this.getClass().getClassLoader().getResourceAsStream(doc);
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new OfficeParser();
parser.parse(input, textHandler, metadata, new ParseContext());
input.close();
for(String s : metadata.names()) {
System.out.println("Metadata name : " + s);
}
私はODS、MS Office、PDFドキュメントに対してこれを実行しようとしましたが、メタデータは大きく異なります。MSドキュメントのメタデータキーといくつかのDublicCoreメタデータリストを一覧表示するMSOfficeインターフェイスがあります。しかし、このようなアプリケーションをどのように実装する必要がありますか?
それを経験した人は誰でも彼の経験を共有できますか?ありがとうございました