java - ドキュメントテキストの抽出と変更

Question

最近、 Apache Tikaに出会いました。これは、テキスト（およびメタデータなどの他の情報）を抽出するためにいくつかのタイプのファイルを処理する美しいツールキットです。

私が直面している問題は、ドキュメント（PDF、DOC、XLSなどの形式）が与えられた場合、テキストを抽出して一部を変更し、ドキュメントを元の形式で再構築する必要があることです（変更されたテキストを使用）。私の知る限り、Tikaはテキストを抽出する機能を提供しますが、変更されたドキュメントを「ステッチ」しません。

特定のファイルタイプに対してこれを行うライブラリがいくつかあるように感じますが、Tikaでサポートされているすべてのファイルタイプを処理することでエンドツーエンドのソリューションを提供するTikaに似たツールキットを知りません。ティカ自身が私のためにこれを行うことができるかどうかもわかりません。

誰かがこの種のことを知っているなら、私に知らせてください。Javaで書かれたライブラリを探しています。

よろしく、

サリル

編集：coderanch.com/how-to/java/AccessingFileFormatsにはいくつかのツールキットリスターがありますが、Tikaでサポートされているすべてのフォーマットを包括的にラップするものをいただければ幸いです。

score 2 · Accepted Answer

Apache POI

Apache POIは、Java Excelソリューション（Excel 97-2008用）です。他のOOXMLおよびOLE2形式を移植するための完全なAPIがあり、他の人の参加を歓迎します。

OLE2ファイルには、XLS、DOC、PPTなどのほとんどのMicrosoft Officeファイルと、MFCシリアル化APIベースのファイル形式が含まれます。このプロジェクトは、OLE2ファイルシステム（POIFS）およびOLE2ドキュメントプロパティ（HPSF）用のAPIを提供します。

Office OpenXML形式は、Microsoft Office 2007および2008にある新しい標準ベースのXMLファイル形式です。これには、XLSX、DOCX、およびPPTXが含まれます。

Eclipse Birt

Q：BIRTはどのようなレポート出力形式をサポートしていますか？

リリース2.1は、HTML、ページ付けされたHTML、およびPDFをサポートします。リリース2.2は、HTML、ページ付けされたHTML、PDF、WORD、XLS、およびPostScriptをサポートします

score 0 · Accepted Answer

ここで述べたような優れたツールキットはないようです。唯一の解決策は、これらのツールキットの1つ以上に独自のラッパーを作成して、作業を完了することです。ティカ自身がその施設を提供してくれれば良かったのですが、残念ながらそうではないようです。

java - ドキュメントテキストの抽出と変更

2 に答える 2

Related

Reference