PDFBoxを使用してPDFからテキストを抽出しています。PDFには表形式の構造があり、これは非常に単純で、列も互いに非常に広い間隔で配置されています
これは非常にうまく機能しますが、すべての種類の水平スペースが単一のスペース文字に変換されるため、列を区別できなくなります (列内の単語内のスペースは、列間のスペースのように見えます)。
一般的な解決策は非常に難しいことを理解していますが、この場合、列が非常に離れているため、「長いスペース」と「単語間のスペース」を簡単に区別するだけで十分です。
PDFBox に、x インチを超える水平方向の空白を単一のスペース以外のものに変えるように指示する方法はありますか? 比例アプローチ (x インチが y スペースになる) も機能します。
pdftotext C ライブラリ/ツールには、レイアウトを保持しようとする「-layout」スイッチがあります。基本的に、PDFBoxでそれをエミュレートできれば完璧です。