MS Office ドキュメントをプレーンテキストまたは HTML (テキストへの変換用) に変換するライブラリ (またはコマンド ライン ツール) を探しています。
Linux で実行する必要があります (Wine 経由ではありません!)。
antiword を見つけましたが、最後のリリースは 2005 だったので、新しい Office 2007 形式を読み取れません。
Word、Excel、および Powerpoint ドキュメントを読むために必要です
MS Office ドキュメントをプレーンテキストまたは HTML (テキストへの変換用) に変換するライブラリ (またはコマンド ライン ツール) を探しています。
Linux で実行する必要があります (Wine 経由ではありません!)。
antiword を見つけましたが、最後のリリースは 2005 だったので、新しい Office 2007 形式を読み取れません。
Word、Excel、および Powerpoint ドキュメントを読むために必要です
新しい Office 2007 形式は、(ZIP) 圧縮された XML です。
すべてのテキスト (少なくとも .docx 形式) は、(ファイルを解凍すると) word フォルダーの document.xml ファイルにあります。すべての XML タグからそれを取り除くと、テキストが得られます。フォーマットは間違いなく失われますが、テキストのインデックス作成などを行いたい場合は、とにかくフォーマットは関係ありません。順序は保持されます。
Excel と Powerpoint を分析したことはありませんが、アプローチは似ているはずです。XML ファイルにセルがどのように格納されているかによっては、Excel の方が扱いにくい場合があります。
Apache POI ライブラリは、オフィス形式からテキストを抽出できます。これはLucene の Tikaによって使用されます。Tika はコマンド ライン ツールとして実行できます。
curl http://.../document.doc \
| java -jar tika-app-x.y.jar --text \
| grep -q keyword
アプリケーションで使用するための適切なライセンスで Autonomy Keyview を使用できます。非常に強力なようで、ほとんどすべてからテキストを抽出できます。これを使用して、任意の形式のファイル内のテキストを識別します。
ライセンス条項が何であるかはわかりませんが、アカウントマネージャーから入手できます:)
OpenOffice を自動化するためのPyODConverter 。それを使用して変換を行います。
Doc を PDF に変換するOONinja の例ですが、OpenOffice がサポートするインポートまたはエクスポートはすべて機能するはずです。必要に応じてヘッドレスで作業できるという利点もあります。
他のオプションには、 Abiword 、またはコマンドラインWvWare を処理したいだけですが、 Docxはサポートされていないと思います。