20

.odt .doc .xls .pdfすべてのファイルをファイルに変換したい.txt

これらのファイルをシェル スクリプトまたは Perl スクリプトを使用してテキスト ファイルに変換したい

4

8 に答える 8

28

odt ファイルなどのプログラムがあります。

odt2txt - リポジトリで利用可能。

于 2010-04-29T10:24:17.527 に答える
14
$ unoconv --format=txt document1.odt

document1.txt を生成する必要があります。

于 2010-07-20T19:45:10.647 に答える
2

OpenOffice には、多数のフォーマットを処理できる組み込みのドキュメント コンバーターがあります。

そうは言っても、過去にそれを機能させるのにいくつか問題がありました。問題がある場合は、AbiWord (別のオープン ソースのワード プロセッサ) の同様のプログラムを見てください。

于 2009-10-14T04:10:33.347 に答える
1

これを行うことは確かに可能ですが、OO プロジェクトとそのドキュメントには何か奇妙で不可解なものがあり、このようなことを調査して追跡するのが難しくなっています。ただし、OO には、OO ネイティブのものだけでなく、これらすべての型を変換する機能があり、2 つの異なる形式の自動制御を介して変換できます。

これらは 2 つの一般的なアプローチです。

  1. OO を起動して、特定のファイルに対してこのジョブを実行するマクロを実行するように指示できます。あとは、ファイルをループするマクロとスクリプトを作成するだけです。構文は次のようなものです

    $ oowriter -headless filename macro://dir/Standard.Module1.sMySub

  2. OO が持つもう 1 つの機能は、ネットワーク API です。これは UNO と呼ばれるものに基づいています。

    $ oowriter -accept=受け入れ文字列

    Notifies  the  OpenOffice.org software that upon the creation of
    "UNO Acceptor Threads", a "UNO Accept String" will be used.
    

ある種のクライアント ライブラリが必要になります。少なくとも Python 用のものはあると思います。このテクノロジを使用すると、OO クライアント ライブラリを備えた Python プログラムまたはその他のスクリプト言語でプログラムを実行し、すべてのファイルを変換できます。OO は MSO を読み取るため、それらすべてを実行できるはずです。

于 2009-10-14T04:18:30.320 に答える
1

Word 文書の場合antiword、少なくとも Linux では を試すことができます。これは、Word 文書を引数として取り、その文書のテキストを (可能な限り) 標準出力に出力するコマンド ライン ユーティリティです。たぶん、出力ファイルも指定できます。詳しい操作方法は覚えていません。しばらく使っていません。OO ドキュメントを処理できるかどうかは不明です。

于 2009-10-14T04:31:36.753 に答える
0

Microsoft 形式については、wvWare ツールを参照してください。

于 2009-10-14T04:38:28.923 に答える