こんにちは、ドキュメント内の用語の tf-idf 値を抽出したいと考えています。少し検索した後、サンプル構成でそれを実行できるリクエストハンドラーを見つけました:http://localhost:8983/solr/tvrh/?q=id:documentid&qt=tvrh&tv=true&tv.all=true
私がやりたいことは、ドキュメントをバッチ分析することです。これが私がすることです:
- commit=true を使用して新しいドキュメントを solr 更新ハンドラーに送信する
- 上記の URL を使用して用語ベクトルの solr をクエリする
問題は、commit=true でドキュメントを挿入するのに約 600 ミリ秒かかることです。これは、私のユースケースでは実際には受け入れられません。
次に、http ://wiki.apache.org/solr/RealTimeGet を見つけて、それを termvector リクエスト ハンドラーと組み合わせようとしました。
<requestHandler name="/tvrh" class="solr.RealTimeGetHandler" startup="lazy">
<lst name="defaults">
<str name="df">text</str>
<bool name="tv">true</bool>
</lst>
<arr name="last-components">
<str>tvComponent</str>
</arr>
</requestHandler>
しかし、ハンドラーにクエリを実行しようとすると、これが応答として取得されます。
とにかくパフォーマンスを向上させるにはどうすればよいですか?助言がありますか?tf idf 値を取得する別の方法はありますか?