コードをLucene3.5からLucene4.1に移行していますが、インデックスを作成せずに用語ベクトルを取得する際に問題が発生しています。
問題は、テキスト文字列とが与えられたAnalyzer
場合、用語ベクトルを計算する必要があることです(技術的には、用語とその頻度tfを見つけます)。明らかに、インデックスを書き込んで(を使用してIndexWriter
)、次にそれらを読み戻す(を使用してIndexReader
)ことで実現できますが、コストがかかると思います。さらに、ドキュメントの頻度(df)は必要ありません。したがって、インデックスなしのソリューションが適していると思います。
Lucene 2および3では、上記の目的のための簡単な手法は、文字列とアナライザーを取得するコンストラクターをQueryTermVector
拡張して持つを使用することです。TermFreqVector
残念ながら、QueryTermVector
(とともにTermFreqVector
)はLucene 4で削除されており、移行ドキュメントにはについて何も記載されていないようQueryTermVector
です。
Lucene 4でこの問題の解決策はありますか?どうもありがとうございます。