100.000 以上のテキスト ドキュメントがあります。この(ややあいまいな)質問に答える方法を見つけたいと思います:
ドキュメントの特定のサブセットについて、ドキュメントの完全なセットに関連するn 個の最も頻繁な単語は?
トレンドを提示したいと思います。「これらは、特定の日付範囲で特にホットなトピックです」のようなものを示すワード クラウド。(はい、これは単純化しすぎていることは承知しています: 単語 != トピックなど)
すべてのドキュメントのすべての単語の tf-idf値のようなものを計算してから、いくつかの計算を行うことができるようですが、ここで車輪を再発明したくありません。
ドキュメントのインデックス作成にLuceneまたはSolrを使用する予定です。彼らはこの質問に私を助けてくれますか - どのように? または、追加または代わりに他のツールをお勧めしますか?