linux - Microsoft Office ドキュメントをテキストに変換する

Question

MS Office ドキュメントをプレーンテキストまたは HTML (テキストへの変換用) に変換するライブラリ (またはコマンドラインツール) を探しています。

Linux で実行する必要があります (Wine 経由ではありません!)。

antiword を見つけましたが、最後のリリースは 2005 だったので、新しい Office 2007 形式を読み取れません。

Word、Excel、および Powerpoint ドキュメントを読むために必要です

score 4 · Accepted Answer

新しい Office 2007 形式は、(ZIP) 圧縮された XML です。

すべてのテキスト (少なくとも .docx 形式) は、(ファイルを解凍すると) word フォルダーの document.xml ファイルにあります。すべての XML タグからそれを取り除くと、テキストが得られます。フォーマットは間違いなく失われますが、テキストのインデックス作成などを行いたい場合は、とにかくフォーマットは関係ありません。順序は保持されます。

Excel と Powerpoint を分析したことはありませんが、アプローチは似ているはずです。XML ファイルにセルがどのように格納されているかによっては、Excel の方が扱いにくい場合があります。

score 2 · Accepted Answer

Apache POI ライブラリは、オフィス形式からテキストを抽出できます。これはLucene の Tikaによって使用されます。Tika はコマンドラインツールとして実行できます。

curl http://.../document.doc \
  | java -jar tika-app-x.y.jar --text \
  | grep -q keyword

score 0 · Accepted Answer

アプリケーションで使用するための適切なライセンスで Autonomy Keyview を使用できます。非常に強力なようで、ほとんどすべてからテキストを抽出できます。これを使用して、任意の形式のファイル内のテキストを識別します。

ライセンス条項が何であるかはわかりませんが、アカウントマネージャーから入手できます:)

score 0 · Accepted Answer

OpenOffice を自動化するためのPyODConverter 。それを使用して変換を行います。
Doc を PDF に変換するOONinja の例ですが、OpenOffice がサポートするインポートまたはエクスポートはすべて機能するはずです。必要に応じてヘッドレスで作業できるという利点もあります。

他のオプションには、 Abiword 、またはコマンドライン WvWare を処理したいだけですが、 Docxはサポートされていないと思います。

linux - Microsoft Office ドキュメントをテキストに変換する

4 に答える 4

Related

Reference