pdf - Solr: 抽出された pdf からのテキストレイアウトを tika/extract リクエストハンドラで保存する

Question

私はsolr 4とextractリクエストハンドラーを使用してpdfファイルにインデックスを付けていますが、これはうまく機能しています。PDF からのテキストは、強調表示されたテキストを表示/提供するためにインデックスに保存されます。

問題は、保存されたテキストのレイアウトが solrs に保存されたフィールドで失われることです。たとえば、pdf コンテンツが次の場合:

 left text                       right text
 2nd. line leftr text            text at the right side

....格納されたフィールドの内容は次のようになります。

 left text right text
 2nd. line leftr text text at the right side

一方、pdf をテキストに抽出し (Linux ツール pdftotext を使用)、続いて抽出要求 hendler を使用してテキストファイル (pdf の代わりに) にインデックスを付ける場合 -> 保存されたフィールドにレイアウトが含まれる/含まれます。したがって、切り取られたテキスト (および solr に格納されたフィールドの内容) は次のようになります。

 left text                       right text
 2nd. line leftr text            text at the right side

私の質問: テキストファイルだけでなく、pdf のインデックス作成中にもレイアウトを維持する方法はありますか?

score 0 · Accepted Answer

Apache Tika は、pdf からすべてのテキストを抽出し、コンテンツをテキストファイルとしてインデックス化します。
ただし、Tika で ExtractHandler を使用する代わりに、いつでも pdf をテキストに変換してインデックスを取得し、テキストをレイアウトして検索を有効にすることができます。
おそらくPDFBoxを使用してApache Tikaのデフォルトの処理を変更して、テキストレイアウトを保持する他のコンバーターを使用できるかどうかを確認することもできます。

pdf - Solr: 抽出された pdf からのテキスト レイアウトを tika/extract リクエスト ハンドラで保存する

1 に答える 1

Related

Reference

pdf - Solr: 抽出された pdf からのテキストレイアウトを tika/extract リクエストハンドラで保存する