索引の作成と検索には lucene ライブラリを使用しました。しかし今、トップ30の単語を取得したいのは、私のテキストに出てくるほとんどの単語です. 私に何ができる?
1856 次
2 に答える
1
Lucene 4.0 以降を使用している場合は、次のHighFreqTerms
ようなクラスを使用できます。
TermStats[] commonTerms = HighFreqTerms.getHighFreqTerms(reader, 30, "mytextfield");
for (TermStats commonTerm : commonTerms) {
System.out.println(commonTerm.termtext.utf8ToString()); //Or whatever you need to do with it
}
各TermStats
オブジェクトから、頻度、フィールド名、およびテキストを取得できます。
于 2013-10-03T19:12:43.533 に答える