2

MS Office ドキュメントをプレーンテキストまたは HTML (テキストへの変換用) に変換するライブラリ (またはコマンド ライン ツール) を探しています。

Linux で実行する必要があります (Wine 経由ではありません!)。

antiword を見つけましたが、最後のリリースは 2005 だったので、新しい Office 2007 形式を読み取れません。

Word、Excel、および Powerpoint ドキュメントを読むために必要です

4

4 に答える 4

4

新しい Office 2007 形式は、(ZIP) 圧縮された XML です。

すべてのテキスト (少なくとも .docx 形式) は、(ファイルを解凍すると) word フォルダーの document.xml ファイルにあります。すべての XML タグからそれを取り除くと、テキストが得られます。フォーマットは間違いなく失われますが、テキストのインデックス作成などを行いたい場合は、とにかくフォーマットは関係ありません。順序は保持されます。

Excel と Powerpoint を分析したことはありませんが、アプローチは似ているはずです。XML ファイルにセルがどのように格納されているかによっては、Excel の方が扱いにくい場合があります。

于 2009-11-17T06:58:34.803 に答える
2

Apache POI ライブラリは、オフィス形式からテキストを抽出できます。これはLucene の Tikaによって使用されます。Tika はコマンド ライン ツールとして実行できます。

curl http://.../document.doc \
  | java -jar tika-app-x.y.jar --text \
  | grep -q keyword
于 2009-11-17T08:12:09.057 に答える
0

アプリケーションで使用するための適切なライセンスで Autonomy Keyview を使用できます。非常に強力なようで、ほとんどすべてからテキストを抽出できます。これを使用して、任意の形式のファイル内のテキストを識別します。

ライセンス条項が何であるかはわかりませんが、アカウントマネージャーから入手できます:)

于 2009-11-17T21:59:24.020 に答える
0

OpenOffice を自動化するためのPyODConverter 。それを使用して変換を行います。
Doc を PDF に変換するOONinja の例ですが、OpenOffice がサポートするインポートまたはエクスポートはすべて機能するはずです。必要に応じてヘッドレスで作業できるという利点もあります。

他のオプションには、 Abiword 、またはコマンドラインWvWare を処理したいだけですが、 Docxはサポートされていないと思います。

于 2009-11-17T07:42:32.023 に答える