3

.doc または .docx ファイル内の文字や単語を自動的にカウントする信頼できる方法は何ですか?

唯一の実際の要件は、適度に正確で適度に信頼できるカウントです。
ラテン文字以外のものを含むドキュメントで動作する必要があるため、ほとんどの場合、文字数を数えるだけで十分です。
カウントは必ずしも Word のものと一致する必要はありませんが、近いほど良いです。
.doc ファイルを生成できるさまざまなアプリが無数にあるため、何もカウントしなくてもかまいませんが、このケースはキャッチ可能である必要があるため、カウントが不正確になる可能性があることを認識しています。他のすべてのケースでは、カウントは少なくとも 99% の確率で少なくとも 99% 正確でなければなりません。

関連するテクノロジについてはオープンですが、*NIX コマンド ラインで実行できるものが望ましいでしょう。

これに対する合理的な解決策はありますか?

4

4 に答える 4

3

Linux の単語からテキストへのコンバーターへのリンクを次に示します。

たとえば、使用できます

antiword file.doc | wc

数えること。

編集:

このリンクは、AbiWord にコマンドライン インターフェイスがあり、.docx 形式を .txt に変換し、「wc」を使用して単語をカウントできることを示しています。AbiWord は docx 形式をサポートしています

于 2010-02-17T03:18:16.363 に答える
1

Mac OS X は、システム フレームワークに組み込まれているワード ファイルの読み取りをサポートしているので、それがあれば簡単です。MacRuby サンプル:

NSSpellChecker.sharedSpellChecker.countWordsInString(NSAttributedString.alloc.initWithURL(fileURL, documentAttributes:nil), language:nil)

移植性は高くなりますが、docx のサポートは放棄されますが、単純に Antiword を入手してantiword | wc -w.

于 2010-02-17T03:27:28.537 に答える
0

Microsoft は、Office バイナリ ファイル形式の仕様を公開しています。.DOC ファイルの解析は簡単ではないように見えますが、注意を払えば、信頼できる再現可能な結果を​​得ることができるはずです。それが Word が示すものとどの程度一致するかはわかりません。それはおそらく、「単語」をどのように定義するかに (少なくとも部分的に) 依存します。たとえば、数字のグループを「単語」と見なすかどうかなどです。 . Word がそのようなケースをどのように処理するかを理解するのにおそらくそれほど時間はかからないので、近い一致を得ることはそれほど難しくないはずです。

于 2010-02-17T03:16:28.453 に答える
0

オンライン申請を解決策と考えれば、解決策はあります。
このサイトは (デザインに関して) あまりきれいではありませんが、単語数と文字数の両方を提供しています: http://allworldphone.com/count-words-characters.htm

制限はないと思います。ドキュメントの内容を対応するテキストエリアにコピー/貼り付けして結果を確認するだけで問題ありません。

100% または 99% の精度に関しては、最初に自分で数えることによって、いくつか (つまり 20 ~ 50 語) でテストできます。

これが役立つことを願っています。よろしく。クリス

于 2010-02-17T03:18:46.893 に答える