text - すべてのドキュメントと比較して上位の単語を見つける

Question

100.000 以上のテキストドキュメントがあります。この（ややあいまいな）質問に答える方法を見つけたいと思います：

ドキュメントの特定のサブセットについて、ドキュメントの完全なセットに関連するn 個の最も頻繁な単語は?

トレンドを提示したいと思います。「これらは、特定の日付範囲で特にホットなトピックです」のようなものを示すワードクラウド。(はい、これは単純化しすぎていることは承知しています: 単語 != トピックなど)

すべてのドキュメントのすべての単語の tf-idf値のようなものを計算してから、いくつかの計算を行うことができるようですが、ここで車輪を再発明したくありません。

ドキュメントのインデックス作成にLuceneまたはSolrを使用する予定です。彼らはこの質問に私を助けてくれますか - どのように? または、追加または代わりに他のツールをお勧めしますか?

score 1 · Accepted Answer

このStackOverflowの質問は、Luceneの一般的な用語頻度もカバーしています。

Luceneをまだ使用していない場合、話している操作は、Hadoopの典型的な導入問題（「単語数」の問題）です。

1 に答える 1