ドキュメント内の用語の数を数えることで TF を簡単に取得できます。ドキュメントの頻度、つまりこの用語を含むドキュメントの数を計算する方法を知りたいです。
これまでに到達したことは、多数の行を使用して solr にクエリを実行し、結果をカウントし直すことですが、これには非常に時間とメモリがかかります。用語だけを数えたい
SolrQuery q = new SolrQuery();
q.setQuery("tweet_text:"+kw);
q.addField("tweet_text");
q.setRows(40000000);
SolrDocumentList results = null ;
try {
QueryResponse rsp = solrServer.query(q);
results = rsp.getResults();
} catch (SolrServerException e) {
e.printStackTrace();
}
ArrayList<String> tweets = new ArrayList<String>();
for (SolrDocument doc : results)
{
tweets.add(doc.getFieldValue("tweet_text").toString());
}