私はApacheTikaのPDF用のPDFBoxに似たソリューションを探していますが、PSファイル用です。
ありがとう。
Ghostscriptを使用してPDF(http://www.osalt.com/ghostscript )に変換できます。その後、PDFを処理するためのさまざまなライブラリがあります。
これには、PDFからのみ取得するという利点があるため、PDFに変換できる限り、他の形式を処理できます。
James Blackが言うように、PDFに変換して使い慣れたツールを使用するのがおそらく最善です。
ただし、 Ubuntuユニバースなどで独自のパッケージで利用できるpstotextは存在します。
Ghostscript自体にもps2txtとps2asciiの両方が付属しており、これも実行できます。