.odt
.doc
.xls
.pdf
すべてのファイルをファイルに変換したい.txt
。
これらのファイルをシェル スクリプトまたは Perl スクリプトを使用してテキスト ファイルに変換したい
.odt
.doc
.xls
.pdf
すべてのファイルをファイルに変換したい.txt
。
これらのファイルをシェル スクリプトまたは Perl スクリプトを使用してテキスト ファイルに変換したい
odt ファイルなどのプログラムがあります。
odt2txt - リポジトリで利用可能。
$ unoconv --format=txt document1.odt
document1.txt を生成する必要があります。
OpenOffice には、多数のフォーマットを処理できる組み込みのドキュメント コンバーターがあります。
そうは言っても、過去にそれを機能させるのにいくつか問題がありました。問題がある場合は、AbiWord (別のオープン ソースのワード プロセッサ) の同様のプログラムを見てください。
これを行うことは確かに可能ですが、OO プロジェクトとそのドキュメントには何か奇妙で不可解なものがあり、このようなことを調査して追跡するのが難しくなっています。ただし、OO には、OO ネイティブのものだけでなく、これらすべての型を変換する機能があり、2 つの異なる形式の自動制御を介して変換できます。
これらは 2 つの一般的なアプローチです。
OO を起動して、特定のファイルに対してこのジョブを実行するマクロを実行するように指示できます。あとは、ファイルをループするマクロとスクリプトを作成するだけです。構文は次のようなものです
$ oowriter -headless filename macro://dir/Standard.Module1.sMySub
OO が持つもう 1 つの機能は、ネットワーク API です。これは UNO と呼ばれるものに基づいています。
$ oowriter -accept=受け入れ文字列
Notifies the OpenOffice.org software that upon the creation of
"UNO Acceptor Threads", a "UNO Accept String" will be used.
ある種のクライアント ライブラリが必要になります。少なくとも Python 用のものはあると思います。このテクノロジを使用すると、OO クライアント ライブラリを備えた Python プログラムまたはその他のスクリプト言語でプログラムを実行し、すべてのファイルを変換できます。OO は MSO を読み取るため、それらすべてを実行できるはずです。
Word 文書の場合antiword
、少なくとも Linux では を試すことができます。これは、Word 文書を引数として取り、その文書のテキストを (可能な限り) 標準出力に出力するコマンド ライン ユーティリティです。たぶん、出力ファイルも指定できます。詳しい操作方法は覚えていません。しばらく使っていません。OO ドキュメントを処理できるかどうかは不明です。
Microsoft 形式については、wvWare ツールを参照してください。