ドキュメント ファイルへのパスを指定すると、そのドキュメント内の単語数を返す Python 関数を作成しようとしています。これは .txt ファイルで行うのはかなり簡単で、いくつかのより複雑なドキュメント形式のサポートをまとめてハックできるツールもありますが、本当に包括的なソリューションが必要です。
OpenOffice.org の py-uno スクリプト インターフェイスとサポートされている形式のリストを見ると、ドキュメントをヘッドレス OOo にロードし、そのワード カウント関数を呼び出すのが理想的であるように思われます。ただし、基本的なドキュメント生成を超える py-uno チュートリアルやサンプル コードは見つかりません。また、見つけたコード スニペットでさえ、半年ほど古く、機能しません。
OOo と Uno を使用するかどうかに関係なく、さまざまな形式のドキュメントの信頼できる単語数を取得するにはどうすればよいですか?