多数の PDF ファイルがあり、Perl プログラムで全文検索を実行して、特定の文字列を含むファイルを返す必要があります。今日まで、私はこれを使用しています:
my @search_results = `grep -i -l \"$string\" *.pdf`;
$string は検索するテキストです。ただし、ファイル形式が明らかに ASCII ではないため、これはほとんどの pdf では失敗します。
一番簡単にできることは何ですか?
明確化:名前が事前にわからない約300のpdfがあります。PDF::Core はおそらくやり過ぎです。私はpdfの名前がわからないため、pdftotextとgrepをうまく連携させようとしています。正しい構文はまだ見つかりません。
以下のAdam Bellaireの提案を使用した最終的な解決策:
@search_results = `for i in \$( ls ); do pdftotext \$i - | grep --label="\$i" -i -l "$search_string"; done`;