巨大な文字列を渡して(たとえば、Moby Dickのいくつかの章)、「単語数」のような統計を取得できる安定したJavaライブラリが必要です。
- 段落数
- 文の数
- 言葉の数
- 文字数
できれば国際化/ローカライズ可能ですが、必須ではありません。Apache Commonsにはこのようなものがあると思いましたが、徹底的に検索したところ、そうではありません。
これは自分で書くこともできますが、おそらくバグが多く、時間がかかります。さらに、ホイールがすでに存在する場合は、ホイールを再発明したくありません。Apache Tikaの使用を考えていますが、必要な機能を実行できるかどうかを確認できません。単語数を処理しているようですが、他の単語数は処理していません。前もって感謝します。