CAM::PDF を使用して、PERL で次のファイルを解析してみました。
しかし、PDF を開いたときに表示されるよりも多くの改行が表示されているようです。これが私のサンプルコードのスナップショットです。
my $file_name = 'file_3.pdf';
my $filecontent;
my @lines = '';
my $save = "/home/tejas/Projects/Richmond/pdf/";
$file_name = $save . $file_name;
my $doc = CAM::PDF->new($file_name) || die "$CAM::PDF::errstr\n";
foreach my $p ( 1 .. $doc->numPages() ) {
my $str = $doc->getPageText($p);
if (defined $str) {
CAM::PDF->asciify(\$str);
print $str;
}
}
file_3.pdf へのリンクから pdf をダウンロードして保存しました。解析中にいくつかの行をつなぎ合わせるためにできることがあれば教えてください (特に、単語の途中で壊れている行)。