pdf - solrでPDFの検索結果のページ番号を取得する

Question

私は、ユーザーがpdfドキュメントを検索してpdf.jsで表示できるWebアプリケーションを構築しています。検索結果を、検索語が見つかった段落の短いスニペットと、右側のページにあるドキュメントを開くためのリンクとともに表示したいと思います。

したがって、必要なのは、すべての検索結果のページ番号と短いテキストスニペットです。

私はSOLR4.1を使用してPDFドキュメントのインデックスを作成しています。索引付け自体は正常に機能しますが、検索結果のページ番号と段落を取得する方法がわかりません。

score 2 · Accepted Answer

現在、PDFを分割し、各ページを個別にSOLRに送信しています。したがって、すべてのページは、IDと、結果をグループ化するための<id_of_document>_<page_number>のみを含む追加のフィールドdoc_idを持つ独自のドキュメント<id_of_document>です。

score 0 · Accepted Answer

0

パッチ付きのJIRASOLR-380があり、確認することができます。

于 2013-02-28T04:12:43.517 に答える

score 0 · Accepted Answer

また、ページ番号で結果を取得しようとしましたが、できませんでした。ディレクトリに存在するすべてのPDFを分割し、ファイルをSolrサーバーに送信するためにApachePDFBoxを使用しました。

score 0 · Accepted Answer

自分で試したことはありません。アプローチ、

PDFを分割し、それらを個別のSolrドキュメントとして索引付けするよりもはるかに優れたアプローチです。

このデザインに欠陥を見つけた場合は、私のスレッドに返信してください。私はそれを解決しようとします。

4 に答える 4