1

solrで10のWebサイトのデータにインデックスを付けました。今、私は次の形式で各ウェブサイトのデータをダンプしたいと思います:[用語、そのウェブサイトの用語の頻度、IDF、ウェブサイト]

e.g : [management,12,145,example.com] 
where 12 is a frequency of term in example.com, 145 is IDF of term in index.

solrでこれを行うことはできますか?

4

2 に答える 2

1

ドキュメント全体の個別の用語の分布を測定する場合は、ヒストグラムが必要です。LukeRequestHandler の例を確認してください。

于 2013-02-21T14:20:48.290 に答える
0

いくつかの低レベル API:

InderReader reader = IndexReader.open(directory);
TermDocs termDocs = reader.termDocs();   
// TermDocs termDocs = reader.termDocs(term);   //  if you need docs containing specific term
while (termDocs.next()) {
    System.out.println("Doc #: " + termDocs.doc());
    System.out.println("Full document: " + reader.document(termDocs.doc()));
    System.out.println("Term frequency: " + termDocs.freq());        
}

tf*idf については、 DefaultSimilarityおよびコメントについてはこの質問を参照してください。

于 2013-02-21T14:55:40.943 に答える