0

Solr でファイルのインデックスを作成したいと考えています。すでに PHP で「出力スクリプト」を作成しましたが、プロジェクト リーダーから、見つかったテキストのページ番号を表示するタスクが与えられました。

だから: - 私は単語「Foo」を探しています。- Solr は結果と強調表示されたテキストを返します。- 次に、この強調表示されたテキストがどのページにあるかを知りたいです。

ファイルは *.pdf ファイルです。

私が考えた1つの解決策は、PDFファイルのテキストをさまざまなフィールドにインポートすることですか? あるいは、「コンテンツ」という名前のこの 1 つの多値フィールドにあるかもしれません。

多分このように:

Json:
    content:
        1: "page one text",
        2: "page two text"

等々?

これは可能ですか?または、この情報を見つけるためのより良い方法はありますか? ご協力いただきありがとうございます!:-)

4

1 に答える 1

0

すべての PDF ファイルのすべてのページに対して個別の Solr ドキュメントを作成する必要があります。ファイルごとに 1 つの結果のみを返したい場合は、FieldCollapsingを使用して、同じ PDF ファイルからのすべての結果をグループ化できます。

于 2013-04-06T07:45:58.600 に答える