solr - そのウェブサイトで頻度を使用してすべての用語を取得する方法

Question

solrで10のWebサイトのデータにインデックスを付けました。今、私は次の形式で各ウェブサイトのデータをダンプしたいと思います：[用語、そのウェブサイトの用語の頻度、IDF、ウェブサイト]

e.g : [management,12,145,example.com] 
where 12 is a frequency of term in example.com, 145 is IDF of term in index.

solrでこれを行うことはできますか？

score 1 · Accepted Answer

ドキュメント全体の個別の用語の分布を測定する場合は、ヒストグラムが必要です。LukeRequestHandler の例を確認してください。

score 0 · Accepted Answer

いくつかの低レベル API:

InderReader reader = IndexReader.open(directory);
TermDocs termDocs = reader.termDocs();   
// TermDocs termDocs = reader.termDocs(term);   //  if you need docs containing specific term
while (termDocs.next()) {
    System.out.println("Doc #: " + termDocs.doc());
    System.out.println("Full document: " + reader.document(termDocs.doc()));
    System.out.println("Term frequency: " + termDocs.freq());        
}

tf*idf については、 DefaultSimilarityおよびコメントについてはこの質問を参照してください。

solr - そのウェブサイトで頻度を使用してすべての用語を取得する方法

2 に答える 2

Related

Reference