etl - Kettle: 複数のデータテーブルを含む CSV ファイルを読み込む

Question

残念ながら、複数のデータテーブルを含む csv ファイルからデータをインポートしようとしています。実際には、純粋な csv ファイルではありません。

いくつかのメタデータを含むヘッダーフィールドが含まれており、実際の csv データ部分は次のように区切られています。

//-------------

Table <table_nr>;;;;

サンプルファイルは次のようになります。

Summary;;
Reporting Date;29/05/2013;12:36:18
Report Name;xyz
Reporting Period From;20/05/2013;00:00:00
Reporting Period To;26/05/2013;23:59:59


//-------------

Table 1;;;;
header1;header2;header3;header4;header5
string_aw;0;0;0;0
string_ax;1;1;1;0
string_ay;1;2;0;1
string_az;0;0;0;0
TOTAL;2;3;1;1


//-------------

Table 2;;;
header1;header2;header3;header4
string_bv;2;2;2
string_bw;3;2;3
string_bx;1;1;1
string_by;1;1;1
string_bz;0;0;0

ケトルを使用してそのようなデータを処理する最良の方法は何ですか?

このファイルをヘッダーと csv データ部分に分割し、それぞれを個別の入力として処理する方法はありますか?

ヒントやヒントをお寄せいただきありがとうございます。

最高です、ヘイズ。

score 2 · Accepted Answer

このような形式のデータで本当に役立つ手順はないと思います。データを CSV ステップに取り込む前に、おそらく何らかの前処理を行う必要があります。ただし、ファイルをコンポーネントファイルに分割し、通常の Kettle パターンを介してそれらのファイルをロードする awk スクリプトのように、シェルを呼び出して最初にコマンドを実行することで、ジョブでこれを行うこともできます。

etl - Kettle: 複数のデータ テーブルを含む CSV ファイルを読み込む

1 に答える 1

Related

Reference

etl - Kettle: 複数のデータテーブルを含む CSV ファイルを読み込む