3

私は、ユーザーがpdfドキュメントを検索してpdf.jsで表示できるWebアプリケーションを構築しています。検索結果を、検索語が見つかった段落の短いスニペットと、右側のページにあるドキュメントを開くためのリンクとともに表示したいと思います。

したがって、必要なのは、すべての検索結果のページ番号と短いテキストスニペットです。

私はSOLR4.1を使用してPDFドキュメントのインデックスを作成しています。索引付け自体は正常に機能しますが、検索結果のページ番号と段落を取得する方法がわかりません。

これは「 Solrを使用したページ番号を使用したPDFのインデックス作成」で見つかりましたが、あまり役に立ちませんでした。

4

4 に答える 4

2

現在、PDFを分割し、各ページを個別にSOLRに送信しています。したがって、すべてのページは、IDと、結果をグループ化するための<id_of_document>_<page_number>のみを含む追加のフィールドdoc_idを持つ独自のドキュメント<id_of_document>です。

于 2013-03-21T11:14:15.100 に答える
0

パッチ付きのJIRASOLR-380があり、確認することができます。

于 2013-02-28T04:12:43.517 に答える
0

また、ページ番号で結果を取得しようとしましたが、できませんでした。ディレクトリに存在するすべてのPDFを分割し、ファイルをSolrサーバーに送信するためにApachePDFBoxを使用しました。

于 2016-09-02T04:20:48.380 に答える
0

自分で試したことはありません。アプローチ、

  1. PDFのインデックス作成のためにApacheTikaパーサーと統合されたSolrカスタマーコネクター
  2. page1、page2、page3…、pageNなどのSolrで複数の属性を作成する–または、Solrで動的属性を使用することもできます
  3. カスタマーコネクタで、PDFをページごとに読み取り、それぞれのページ属性/動的属性にインデックスを付けます
  4. すべての「ページ」属性で検索を有効にする
  5. ユーザーが検索するときは、「highlighter / Summary / Teaser」コンポーネントを使用して、ヒットした「ページ」属性のみを取得します
  6. 特定のレコードに対してヒット(蛍光ペン/要約/ティーザーから検索)した「ページ」属性は、検索されたフレーズを持つページです。
  7. PDFをPDFの「#PageNumber」にリンクし、クリックするとページがポップアップします

PDFを分割し、それらを個別のSolrドキュメントとして索引付けするよりもはるかに優れたアプローチです。

このデザインに欠陥を見つけた場合は、私のスレッドに返信してください。私はそれを解決しようとします。

于 2018-05-03T16:49:02.497 に答える