PDFファイルを解析していて、2つのアドレスが左揃えになっています。都市の下の線に加えて、州と郵便番号も分離されています。
右側のアドレスは、常にインデックス> 150(行の先頭から)から始まります。150を超えるインデックスから任意のテキストの一致をトリガーし、\ n改行で停止することができますが、この方法はメモリを大量に消費し、時間がかかるようです。PDFには約200行のテキストがあります。また、アドレス行(合計7行)が常に行40と行48の間に発生することも知っています。このデータを解析するためのいくつかの簡単な代替方法を探しています。
1011 VALLEY BELT RD 4569 EAST TWINSBURG ROAD\n
open (FILE, "pdftotext -layout file.pdf - |");
while(<FILE>) {
$i++;
my($line) = $_;
$line=~s/\n$/ | [NL]/; # just to visualize the newline on screen
print "\n<div class=\"line\"><div>$i</div>$line</div>";
}
close FILE;
PDFはアプリケーションによって生成されるため、制御されます