java - Linux で MSword を XML/HTML に変換する

Question

ファイルの構造 (主にテーブル) を保持しながら、MSWord ファイルを XML または HTML に変換する必要があります。次のように、MSwordファイル（および任意のファイル）からテキストを抽出するのに非常に強力なtikaをたまたま見つけました。

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text

次のように、出力を html/XML に保存するオプションを選択できます。

curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html

ただし、出力は基本的に HTML で記述されたプレーンテキストのようなものであるため、テーブル構造やその他のドキュメント要素を取得することはできません。

Perl または Python で、要素の構造を維持しながらドキュメントを XML/HTML に変換できる Tika の実装はありますか? または、これを行うことができるLinux上の他のツールはありますか?

score 1 · Accepted Answer

OpenOffice SDK をインストールすると、あらゆる種類のドキュメント (変換を含む) に強力な API が提供されます。

1 に答える 1