私は数日間 solr を使用してきましたが、ドキュメントを段落に分割してから、すべての段落を検索する必要があります。私は多くのことを試しましたが、solr は段落を正しくキャプチャしたくありません。何もキャプチャしないか、すべてを 1 つの大きなテキストとしてキャプチャします。私は試した:
ContentStreamUpdateRequest up
= new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File("/home/usr/Documents/example.doc"));
up.setParam("literal.id", "foo");
up.setParam(ExtractingParams.CAPTURE_ATTRIBUTES, "true");
up.setParam(ExtractingParams.CAPTURE_ELEMENTS, "p");
up.setParam(ExtractingParams.MAP_PREFIX + "p", "attr_paragraphs");
どんな組み合わせを試しても、常に間違った結果になります。段落を取得して使いやすくする方法を知っている人はいますか? 基本的なクエリ ベースの要約を実行し、クエリに関する情報が最も多い段落を取得するプラグインを作成していますが、段落を取得する方法がわかりません。
ありがとう!