perl - PDFからテキストを抽出するのに最適なperlモジュールは何ですか?

Question

PDFからテキストを抽出する最良の方法は何ですか?

score 7 · Accepted Answer

CAM::PDFモジュールは、テキストを抽出し、ドキュメント内のどこから来たかについての情報を維持するのに非常に便利です。簡単な抽出を示す /usr/local/bin/getpdftext.pl をインストールします。ただし、CAM::PDF は完全に有効な PDF しか読み取ることができません。

不正な形式の PDF を扱っている場合は、pdftotext などのより寛大なパーサーが必要になる場合があります。foo.pdf を foo.txt にダンプし、それを Perl に読み込むことができます。

perl - PDFからテキストを抽出するのに最適なperlモジュールは何ですか?

1 に答える 1

Related

Reference