.doc または .docx ファイル内の文字や単語を自動的にカウントする信頼できる方法は何ですか?
唯一の実際の要件は、適度に正確で適度に信頼できるカウントです。
ラテン文字以外のものを含むドキュメントで動作する必要があるため、ほとんどの場合、文字数を数えるだけで十分です。
カウントは必ずしも Word のものと一致する必要はありませんが、近いほど良いです。
.doc ファイルを生成できるさまざまなアプリが無数にあるため、何もカウントしなくてもかまいませんが、このケースはキャッチ可能である必要があるため、カウントが不正確になる可能性があることを認識しています。他のすべてのケースでは、カウントは少なくとも 99% の確率で少なくとも 99% 正確でなければなりません。
関連するテクノロジについてはオープンですが、*NIX コマンド ラインで実行できるものが望ましいでしょう。
これに対する合理的な解決策はありますか?