6

PDFからテキストを抽出する最良の方法は何ですか?

4

1 に答える 1

7

CAM::PDFモジュールは、テキストを抽出し、ドキュメント内のどこから来たかについての情報を維持するのに非常に便利です。簡単な抽出を示す /usr/local/bin/getpdftext.pl をインストールします。ただし、CAM::PDF は完全に有効な PDF しか読​​み取ることができません。

不正な形式の PDF を扱っている場合は、pdftotext などのより寛大なパーサーが必要になる場合があります。foo.pdf を foo.txt にダンプし、それを Perl に読み込むことができます。

于 2011-01-19T01:29:44.513 に答える