apache - Solr ファイルページごとのマップコンテンツのインデックス作成

Question

Solr でファイルのインデックスを作成したいと考えています。すでに PHP で「出力スクリプト」を作成しましたが、プロジェクトリーダーから、見つかったテキストのページ番号を表示するタスクが与えられました。

だから： - 私は単語「Foo」を探しています。- Solr は結果と強調表示されたテキストを返します。- 次に、この強調表示されたテキストがどのページにあるかを知りたいです。

ファイルは *.pdf ファイルです。

私が考えた1つの解決策は、PDFファイルのテキストをさまざまなフィールドにインポートすることですか? あるいは、「コンテンツ」という名前のこの 1 つの多値フィールドにあるかもしれません。

多分このように：

Json:
    content:
        1: "page one text",
        2: "page two text"

等々？

これは可能ですか？または、この情報を見つけるためのより良い方法はありますか? ご協力いただきありがとうございます！:-)

score 0 · Accepted Answer

すべての PDF ファイルのすべてのページに対して個別の Solr ドキュメントを作成する必要があります。ファイルごとに 1 つの結果のみを返したい場合は、FieldCollapsingを使用して、同じ PDF ファイルからのすべての結果をグループ化できます。

apache - Solr ファイル ページごとのマップ コンテンツのインデックス作成