solrで10のWebサイトのデータにインデックスを付けました。今、私は次の形式で各ウェブサイトのデータをダンプしたいと思います:[用語、そのウェブサイトの用語の頻度、IDF、ウェブサイト]
e.g : [management,12,145,example.com]
where 12 is a frequency of term in example.com, 145 is IDF of term in index.
solrでこれを行うことはできますか?
ドキュメント全体の個別の用語の分布を測定する場合は、ヒストグラムが必要です。LukeRequestHandler の例を確認してください。
いくつかの低レベル API:
InderReader reader = IndexReader.open(directory);
TermDocs termDocs = reader.termDocs();
// TermDocs termDocs = reader.termDocs(term); // if you need docs containing specific term
while (termDocs.next()) {
System.out.println("Doc #: " + termDocs.doc());
System.out.println("Full document: " + reader.document(termDocs.doc()));
System.out.println("Term frequency: " + termDocs.freq());
}
tf*idf については、 DefaultSimilarityおよびコメントについてはこの質問を参照してください。