perl - テーブルの抽出 perl

Question

Perl は私の研究に非常に役立つので、Perl 言語を学び始めています。テキストファイルからテーブルを抽出する方法がわかりません

次のように順番に名前が付けられた特定の数のテキストファイルを含むフォルダーがあります。

1.txt
2.txt
3.txt
...
...
1000.txt

.txt 形式のこれらのファイルの例は、次のリンクにあります。

同じファイルの .htm バージョンは、次のリンクにあります。

現在、これらのファイルで探しているテーブルは時々呼び出されます。

Non-Qualified Deferred Compensation Table

次のような小さなバリエーションを持つ他のもの：

Non Qualified Deferred Compensation Table

基本的に、この表には、ヘッダーに次の単語が含まれています (ファイルごとにわずかに異なる場合があります)。

"貢献"
「累計利益」
「総出金・分配金」

およびその他のヘッダー (ファイルごとにわずかな違いがありますが、これらの単語は、各 .txt ファイルのすべての「遅延補償テーブル」にほとんど表示されます (.htm ファイルへのリンクと .txt ファイルへのリンクを参照してください)。例 - ファイル内の「Non-Qualified Deferred Compensation Table」を検索してください。これらのヘッダーの下には、特定の数のマネージャーの金額がドルで表示されています (表の行数はファイルごとに異なります)。

各ファイルから遅延補正テーブルを抽出し、.txt ファイルへの各テーブルの参照と共に格納されたすべての遅延補正テーブル (以下のヘッダーと番号) を含む .csv 出力を生成する perl スクリプトを作成する方法はありますか?

出力ファイルには次のようなものがあります。

File    Manager Name    Contributions   Aggregate Earnings  Aggregate Withdrawal/Distributions
1.txt   Manager1    00000   00000   00000
1.txt   Manager2    00000   00000   00000
1.txt   Manager3    00000   00000   00000
2.txt   Manager1    00000   00000   00000
2.txt   Manager2    00000   00000   00000
2.txt   Manager3    00000   00000   00000
3.txt   Manager1    00000   00000   00000
3.txt   Manager2    00000   00000   00000
3.txt   Manager3    00000   00000   00000

これについてお役に立てれば幸いです。私は初心者で、Perl を学ぼうとしていますが、この特定のタスクは正直言って非常に難しいようです。

score 1 · Accepted Answer

Perl はこれを簡単に実現できます。

この Perl モジュールを見てください:

ここまたはhttp://google.comで、大量の Web スクレイピングの例を見つけることができます。

perl - テーブルの抽出 perl

1 に答える 1

Related

Reference