perl - LWPとHTML::TableExtractをText::CSVでCSVを吐き出す方法

Question

私は現在、小さなパーサーに取り組んでいます。

最初のスクリプトで非常に良い結果が得られました！これはうまくいくことができました！ページからデータをフェッチします：http：//192.68.214.70/km/asps/schulsuche.asp ？q = n＆a = 20（注6142レコード）-ただし、注-データは分離されていないため、サブシーケンスはデータは少し難しいです。したがって、2番目のスクリプトがあります-以下を参照してください！

注-友達が両方のスクリプトを手伝ってくれました。私は、2人で1人で移行するのに助けが必要な真の初心者として自己紹介する必要があります。ですから、私のPerlの知識はそれほど精巧ではないので、自分で1つに移行することができます。ありとあらゆる助けが素晴らしいでしょう！

最初のスクリプト：スパイダーとパーサー：次のようにデータを吐き出します：

lfd. Nr. Schul- nummer Schulname Straße PLZ Ort Telefon Fax Schulart Webseite
1 0401 Mädchenrealschule Marienburg, Abenberg, der Diözese Eichstätt Marienburg 1 91183  Abenberg   09178/509210  Realschulen  mrs-marienburg.homepage.t-online.de 
2 6581 Volksschule Abenberg (Grundschule) Güssübelstr. 2 91183  Abenberg   09178/215 09178/905060 Volksschulen  home.t-online.de/home/vs-abenberg 
3 6913 Mittelschule Abenberg  Güssübelstr. 2 91183  Abenberg   09178/215 09178/905060 Volksschulen  home.t-online.de/home/vs-abenberg 
4 0402 Johann-Turmair-Realschule Staatliche Realschule Abensberg Stadionstraße 46 93326  Abensberg   09443/9143-0,12,13 09443/914330 Realschulen  www.rs-abensberg.de

しかし、私はデータを区切る必要があります：コンマまたはそのような何かで！

そして、私は2番目のスクリプトを持っています。この部分はCSV形式を実行できます。スパイダーロジックでそれを作りたいです。しかし、最初に最初のスクリプトを見てみましょう：素晴らしいスパイダーロジックを使用します。

適切なコードを参照してください。

 #!/usr/bin/perl
    use strict;
    use warnings;
    use HTML::TableExtract;
    use LWP::Simple;
    use Cwd;
    use POSIX qw(strftime);
    my $te = HTML::TableExtract->new;
    my $total_records = 0;
    my $suchbegriffe = "e";
    my $treffer = 50;
    my $range = 0;
    my $url_to_process = "http://192.68.214.70/km/asps/schulsuche.asp?q=";
    my $processdir = "processing";
    my $counter = 50;
    my $displaydate = "";
    my $percent = 0;

    &workDir();
    chdir $processdir;
    &processURL();
    print "\nPress <enter> to continue\n";
    <>;
    $displaydate = strftime('%Y%m%d%H%M%S', localtime);
    open OUTFILE, ">webdata_for_$suchbegriffe\_$displaydate.txt";
    &processData();
    close OUTFILE;
    print "Finished processing $total_records records...\n";
    print "Processed data saved to $ENV{HOME}/$processdir/webdata_for_$suchbegriffe\_$displaydate.txt\n";
    unlink 'processing.html';
    die "\n";

    sub processURL() {
    print "\nProcessing $url_to_process$suchbegriffe&a=$treffer&s=$range\n";
    getstore("$url_to_process$suchbegriffe&a=$treffer&s=$range", 'tempfile.html') or die 'Unable to get page';

       while( <tempfile.html> ) {
          open( FH, "$_" ) or die;
          while( <FH> ) {
             if( $_ =~ /^.*?(Treffer <b>)(d+)( - )(d+)(</b> w+ w+ <b>)(d+).*/ ) {
                $total_records = $6;
                print "Total records to process is $total_records\n";
                }
             }
             close FH;
       }
       unlink 'tempfile.html';
    }

    sub processData() {
       while ( $range <= $total_records) {
          getstore("$url_to_process$suchbegriffe&a=$treffer&s=$range", 'processing.html') or die 'Unable to get page';
          $te->parse_file('processing.html');
          my ($table) = $te->tables;
          for my $row ( $table->rows ) {
             cleanup(@$row);
             print OUTFILE "@$row\n";
          }
          $| = 1; 
          print "Processed records $range to $counter";
          print "\r";
          $counter = $counter + 50;
          $range = $range + 50;
          $te = HTML::TableExtract->new;
       }
    }

    sub cleanup() {
       for ( @_ ) {
          s/s+/ /g;
       }
    }

    sub workDir() {
    # Use home directory to process data
    chdir or die "$!";
    if ( ! -d $processdir ) {
       mkdir ("$ENV{HOME}/$processdir", 0755) or die "Cannot make directory $processdir: $!";
       }
    }

しかし、これ（上記のスクリプト）のように、unfortunatleyはセパレーターを処理しません。私は、セパレーターを検索するメソッドを処理する必要がありました。データ（出力）を分離するため。

したがって、分離することで、データを操作してmysql-tableに格納したり、他のことを実行したりすることができます。以下のコードを上記のコードに入れる-上記のコードのスパイダーロジックをCSV形式でデータを出力するロジックと組み合わせる。コードのどこに設定するか質問：一方を他方に移行するためにこのポイントを特定できますか...！？それはすごいことだろう...私が心に留めていることを明確にできることを願っている...！？両方の部分（/ scripts）を1つに移行することの利点を利用できますか？

したがって、問題は次のとおりです。CSVスクリプトをスクリプトのどこに設定するか（上記）

#!/usr/bin/perl
use warnings;
use strict;
use LWP::Simple;
use HTML::TableExtract;
use Text::CSV;

my $html= get 'http://192.68.214.70/km/asps/schulsuche.asp?q=a&a=20';
$html =~ tr/\r//d;     # strip carriage returns
$html =~ s/&nbsp;/ /g; # expand spaces

my $te = new HTML::TableExtract();
$te->parse($html);

my @cols = qw(
    rownum
    number
    name
    phone
    type
    website
);

my @fields = qw(
    rownum
    number
    name
    street
    postal
    town
    phone
    fax
    type
    website
);

my $csv = Text::CSV->new({ binary => 1 });

foreach my $ts ($te->table_states) {
    foreach my $row ($ts->rows) {

        #  trim leading/trailing whitespace from base fields
        s/^\s+//, s/\s+$// for @$row;

        # load the fields into the hash using a "hash slice"
        my %h;
        @h{@cols} = @$row;

        # derive some fields from base fields, again using a hash slice
        @h{qw/name street postal town/} = split /\n+/, $h{name};
        @h{qw/phone fax/} = split /\n+/, $h{phone};

        #  trim leading/trailing whitespace from derived fields
        s/^\s+//, s/\s+$// for @h{qw/name street postal town/};

        $csv->combine(@h{@fields});
        print $csv->string, "\n";
    }
}

問題は、最初のスクリプトで非常に良い結果が得られたことです。次のページからデータをフェッチします：http：//192.68.214.70/km/asps/schulsuche.asp ？q = n＆a = 20（注6142レコード）-ただし、注-データは分離されていません...！

そして、私は2番目のスクリプトを持っています。この部分はCSV形式を実行できます。スパイダーロジックと組み合わせたいです。

挿入する部分はどこですか？皆様のお役に立てることを楽しみにしております。

もっと正確にする必要がある場合は、お知らせください...

score 3 · Accepted Answer

完全なスクリプトを入力したので、全体を批評したいと思います。

#!/usr/bin/perl
    use strict;
    use warnings;
    use HTML::TableExtract;
    use LWP::Simple;
    use Cwd;
    use POSIX qw(strftime);
    my $te = HTML::TableExtract->new;

1つのブロックでしか使用$teしないのに、なぜこの外部スコープで宣言して初期化するのですか？同じ質問がほとんどの変数に当てはまります。可能な限り最も内側のスコープでそれらを宣言してみてください。

    my $total_records = 0;
    my $suchbegriffe = "e";
    my $treffer = 50;

一般に、英語の変数名を使用すると、ドイツ語の名前よりもはるかに多くの人と共同作業を行うことができます。私はドイツ語を理解しているので、あなたのコードの意図は理解していますが、ほとんどのSOは理解していません。

    my $range = 0;
    my $url_to_process = "http://192.68.214.70/km/asps/schulsuche.asp?q=";
    my $processdir = "processing";
    my $counter = 50;
    my $displaydate = "";
    my $percent = 0;

    &workDir();

&潜水艦を呼び出すために使用しないでください。で呼び出すだけworkDir;です。1994年以来使用する必要はありませんでした、そしてそれはあなたが思うかもしれないことをしない特別なケースである&ため、厄介な落とし穴につながる可能性がありますが、正しいことはします。&callMySub;callMySub;

    chdir $processdir;
    &processURL();
    print "\nPress <enter> to continue\n";
    <>;
    $displaydate = strftime('%Y%m%d%H%M%S', localtime);
    open OUTFILE, ">webdata_for_$suchbegriffe\_$displaydate.txt";

最近では、一般的に字句ファイルハンドルが好まれています。open my $outfile, ">file";また、オープンからのエラーをチェックするかuse autodie;、失敗時にオープンダイを作成する必要があります。

    &processData();
    close OUTFILE;
    print "Finished processing $total_records records...\n";
    print "Processed data saved to $ENV{HOME}/$processdir/webdata_for_$suchbegriffe\_$displaydate.txt\n";
    unlink 'processing.html';
    die "\n";

    sub processURL() {
    print "\nProcessing $url_to_process$suchbegriffe&a=$treffer&s=$range\n";
    getstore("$url_to_process$suchbegriffe&a=$treffer&s=$range", 'tempfile.html') or die 'Unable to get page';

       while( <tempfile.html> ) {
          open( FH, "$_" ) or die;
          while( <FH> ) {
             if( $_ =~ /^.*?(Treffer <b>)(d+)( - )(d+)(</b> w+ w+ <b>)(d+).*/ ) {
                $total_records = $6;
                print "Total records to process is $total_records\n";
                }
             }
             close FH;
       }
       unlink 'tempfile.html';
    }

    sub processData() {
       while ( $range <= $total_records) {
          getstore("$url_to_process$suchbegriffe&a=$treffer&s=$range", 'processing.html') or die 'Unable to get page';
          $te->parse_file('processing.html');
          my ($table) = $te->tables;
          for my $row ( $table->rows ) {
             cleanup(@$row);
             print OUTFILE "@$row\n";

これは、データを区切る際にコンマを入れたい場合に変更する行です。結合関数を見てください、それはあなたが望むことをすることができます。

          }
          $| = 1; 
          print "Processed records $range to $counter";
          print "\r";
          $counter = $counter + 50;
          $range = $range + 50;
          $te = HTML::TableExtract->new;
       }

ループの最初ではなく最後に初期化するのは非常に奇妙です。ループの先頭で$te宣言して初期化する方がはるかに慣用的です。$te

    }

    sub cleanup() {
       for ( @_ ) {
          s/s+/ /g;

意味s/\s+/ /g;ですか？

       }
    }

    sub workDir() {
    # Use home directory to process data
    chdir or die "$!";
    if ( ! -d $processdir ) {
       mkdir ("$ENV{HOME}/$processdir", 0755) or die "Cannot make directory $processdir: $!";
       }
    }

2番目のスクリプトについてはコメントしていません。おそらく、別の質問としてそれを尋ねるべきです。

perl - LWPとHTML::TableExtractをText::CSVでCSVを吐き出す方法

1 に答える 1

Related

Reference