0

100.000 以上のテキスト ドキュメントがあります。この(ややあいまいな)質問に答える方法を見つけたいと思います:

ドキュメントの特定のサブセットについて、ドキュメントの完全なセットに関連するn 個の最も頻繁な単語は?

トレンドを提示したいと思います。「これらは、特定の日付範囲で特にホットなトピックです」のようなものを示すワード クラウド。(はい、これは単純化しすぎていることは承知しています: 単語 != トピックなど)

すべてのドキュメントのすべての単語の tf-idf値のようなものを計算してから、いくつかの計算を行うことができるようですが、ここで車輪を再発明したくありません。

ドキュメントのインデックス作成にLuceneまたはSolrを使用する予定です。彼らはこの質問に私を助けてくれますか - どのように? または、追加または代わりに他のツールをお勧めしますか?

4

1 に答える 1

1

これは機能するはずです:http://lucene.apache.org/java/3_1_0/api/contrib-misc/org/apache/lucene/misc/HighFreqTerms.html

このStackOverflowの質問は、Luceneの一般的な用語頻度もカバーしています。

Luceneをまだ使用していない場合、話している操作は、Hadoopの典型的な導入問題(「単語数」の問題)です。

于 2011-09-11T21:30:31.117 に答える