4

ドキュメント ファイルへのパスを指定すると、そのドキュメント内の単語数を返す Python 関数を作成しようとしています。これは .txt ファイルで行うのはかなり簡単で、いくつかのより複雑なドキュメント形式のサポートをまとめてハックできるツールもありますが、本当に包括的なソリューションが必要です。

OpenOffice.org の py-uno スクリプト インターフェイスとサポートされている形式のリストを見ると、ドキュメントをヘッドレス OOo にロードし、そのワード カウント関数を呼び出すのが理想的であるように思われます。ただし、基本的なドキュメント生成を超える py-uno チュートリアルやサンプル コードは見つかりません。また、見つけたコード スニペットでさえ、半年ほど古く、機能しません。

OOo と Uno を使用するかどうかに関係なく、さまざまな形式のドキュメントの信頼できる単語数を取得するにはどうすればよいですか?

4

2 に答える 2

3

ドキュメントをヘッドレス OOo にロードし、 ワードカウント関数を呼び出します

PyODConverterは、OOo を使用して複数のファイル タイプを変換する最近の (11-2009) スクリプトです。スクリプトを見ると、OOo でサポートされているすべてのドキュメントの基本的な読み込みが含まれています。

OOo をヘッドレス サービスとして開始する方法は次のとおりです。

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

次に、コマンドラインで OOo を呼び出し、スクリプトを実行してから OOo を閉じる小さなブートストラップを作成するだけです。


于 2010-02-13T11:45:40.353 に答える
2

これはオプションではない可能性がありますが、その場合は、ドキュメントを Google ドキュメントにアップロードしてから .txt 形式でエクスポートできます。Google は通常、変換に関して非常に優れた仕事をします。

ここで関連する API を見つけることができます: http://code.google.com/intl/pl/apis/documents/docs/1.0/developers_guide_python.html

ログイン、アップロード、およびエクスポートのセクションを見てください。

于 2010-02-13T08:30:55.960 に答える