lucene - PDFBoxでヘッダーとフッターなしでテキストを抽出する

Question

PDFTextStripper クラスを使用して、Lucene インデックス作成の前に PDF テキストを抽出します。

抽出されたテキストから pdf ヘッダーとフッターを除外する可能性はありますか?

score 0 · Accepted Answer

ドキュメント内のヘッダーとフッターの正確な位置がわかっている場合は、領域ごとのテキスト抽出を使用できます。お役に立てれば。

1 に答える 1