ファイルの構造 (主にテーブル) を保持しながら、MSWord ファイルを XML または HTML に変換する必要があります。次のように、MSwordファイル(および任意のファイル)からテキストを抽出するのに非常に強力なtikaをたまたま見つけました。
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
次のように、出力を html/XML に保存するオプションを選択できます。
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html
ただし、出力は基本的に HTML で記述されたプレーン テキストのようなものであるため、テーブル構造やその他のドキュメント要素を取得することはできません。
Perl または Python で、要素の構造を維持しながらドキュメントを XML/HTML に変換できる Tika の実装はありますか? または、これを行うことができるLinux上の他のツールはありますか?