1

私はsolr 4とextractリクエストハンドラーを使用してpdfファイルにインデックスを付けていますが、これはうまく機能しています。PDF からのテキストは、強調表示されたテキストを表示/提供するためにインデックスに保存されます。

問題は、保存されたテキストのレイアウトが solrs に保存されたフィールドで失われることです。たとえば、pdf コンテンツが次の場合:

 left text                       right text
 2nd. line leftr text            text at the right side

....格納されたフィールドの内容は次のようになります。

 left text right text
 2nd. line leftr text text at the right side

一方、pdf をテキストに抽出し (Linux ツール pdftotext を使用)、続いて抽出要求 hendler を使用してテキストファイル (pdf の代わりに) にインデックスを付ける場合 -> 保存されたフィールドにレイアウトが含まれる/含まれます。したがって、切り取られたテキスト (および solr に格納されたフィールドの内容) は次のようになります。

 left text                       right text
 2nd. line leftr text            text at the right side

私の質問: テキスト ファイルだけでなく、pdf のインデックス作成中にもレイアウトを維持する方法はありますか?

4

1 に答える 1

0

Apache Tika は、pdf からすべてのテキストを抽出し、コンテンツをテキスト ファイルとしてインデックス化します。
ただし、Tika で ExtractHandler を使用する代わりに、いつでも pdf をテキストに変換してインデックスを取得し、テキストをレイアウトして検索を有効にすることができます。
おそらくPDFBoxを使用してApache Tikaのデフォルトの処理を変更して、テキストレイアウトを保持する他のコンバーターを使用できるかどうかを確認することもできます。

于 2012-12-08T13:02:06.113 に答える