0

こんにちは、ドキュメント内の用語の tf-idf 値を抽出したいと考えています。少し検索した後、サンプル構成でそれを実行できるリクエストハンドラーを見つけました:http://localhost:8983/solr/tvrh/?q=id:documentid&qt=tvrh&tv=true&tv.all=true

私がやりたいことは、ドキュメントをバッチ分析することです。これが私がすることです:

  1. commit=true を使用して新しいドキュメントを solr 更新ハンドラーに送信する
  2. 上記の URL を使用して用語ベクトルの solr をクエリする

問題は、commit=true でドキュメントを挿入するのに約 600 ミリ秒かかることです。これは、私のユースケースでは実際には受け入れられません。

次に、http ://wiki.apache.org/solr/RealTimeGet を見つけて、それを termvector リクエスト ハンドラーと組み合わせようとしました。

<requestHandler name="/tvrh" class="solr.RealTimeGetHandler" startup="lazy">
    <lst name="defaults">
      <str name="df">text</str>
      <bool name="tv">true</bool>
    </lst>
    <arr name="last-components">
      <str>tvComponent</str>
    </arr>
  </requestHandler>

しかし、ハンドラーにクエリを実行しようとすると、これが応答として取得されます

とにかくパフォーマンスを向上させるにはどうすればよいですか?助言がありますか?tf idf 値を取得する別の方法はありますか?

4

1 に答える 1