最近、 Apache Tikaに出会いました。これは、テキスト(およびメタデータなどの他の情報)を抽出するためにいくつかのタイプのファイルを処理する美しいツールキットです。
私が直面している問題は、ドキュメント(PDF、DOC、XLSなどの形式)が与えられた場合、テキストを抽出して一部を変更し、ドキュメントを元の形式で再構築する必要があることです(変更されたテキストを使用)。私の知る限り、Tikaはテキストを抽出する機能を提供しますが、変更されたドキュメントを「ステッチ」しません。
特定のファイルタイプに対してこれを行うライブラリがいくつかあるように感じますが、Tikaでサポートされているすべてのファイルタイプを処理することでエンドツーエンドのソリューションを提供するTikaに似たツールキットを知りません。ティカ自身が私のためにこれを行うことができるかどうかもわかりません。
誰かがこの種のことを知っているなら、私に知らせてください。Javaで書かれたライブラリを探しています。
よろしく、
サリル
編集:coderanch.com/how-to/java/AccessingFileFormatsにはいくつかのツールキットリスターがありますが、Tikaでサポートされているすべてのフォーマットを包括的にラップするものをいただければ幸いです。