私はsolr 4とextractリクエストハンドラーを使用してpdfファイルにインデックスを付けていますが、これはうまく機能しています。PDF からのテキストは、強調表示されたテキストを表示/提供するためにインデックスに保存されます。
問題は、保存されたテキストのレイアウトが solrs に保存されたフィールドで失われることです。たとえば、pdf コンテンツが次の場合:
left text right text
2nd. line leftr text text at the right side
....格納されたフィールドの内容は次のようになります。
left text right text
2nd. line leftr text text at the right side
一方、pdf をテキストに抽出し (Linux ツール pdftotext を使用)、続いて抽出要求 hendler を使用してテキストファイル (pdf の代わりに) にインデックスを付ける場合 -> 保存されたフィールドにレイアウトが含まれる/含まれます。したがって、切り取られたテキスト (および solr に格納されたフィールドの内容) は次のようになります。
left text right text
2nd. line leftr text text at the right side
私の質問: テキスト ファイルだけでなく、pdf のインデックス作成中にもレイアウトを維持する方法はありますか?