etl - ETL フレームワークに必要な機能は何ですか?

Question

私はETLを（mongodbバックエンドを備えたpythonで）書いていますが、疑問に思っていました.ETLをETLと呼ぶ必要がある標準関数とツールは何ですか？

この ETL は、スクリプト可能でモジュール化されたアプローチにより、可能な限り汎用的なものになります。ほとんどの場合、さまざまなデータベースの同期を維持し、さまざまな形式 (xml および csv) でデータセットをインポート/エクスポートするために使用されます。多次元ツールは必要ありませんが、後で必要になる可能性があります。

score 16 · Accepted Answer

ETL の使用例について少し考えてみましょう。

エキス。
- 汎用 DB-API アダプターを介してデータベースを読み取ります。
- 同様のアダプタを介してフラットファイルを読み取ります。
- 同様のアダプターを介してスプレッドシートを読み取ります。
清める。
- 任意のルール
- フィルタリングして拒否
- 交換
- データの列を追加する
プロファイルデータ。
- 統計頻度表。
変換 (クレンジングを参照してください。これらは同じ実装の 2 つの使用例です)
寸法適合性検索を行います。
- 値を置き換えるか、値を追加します。
集計。
- パイプラインの任意の時点で
ロード。
- または、フラットファイルを準備し、DB 製品のローダーを実行します。

さらに、単一のユースケースではない追加の要件がいくつかあります。

個々の操作はそれぞれ、Unix パイプラインで接続できる個別のプロセスである必要があり、個々のレコードはプロセスからプロセスへと流れます。これにより、すべての CPU リソースが使用されます。
ETL の前提条件を判断するのが難しい場所には、ある種の時間ベースのスケジューラが必要です。
ETL 処理ステップの前提条件を把握できる場所には、イベントベースのスケジュールが必要です。

ノート。ETL は I/O バウンドであるため、複数のスレッドはあまり役に立ちません。各プロセスは長時間実行されるため (特に処理するデータが何千行もある場合)、「重い」プロセスのオーバーヘッドは問題になりません。

score 4 · Accepted Answer

以下は順不同のランダムなリストです。

すべての主要なリレーショナルデータベースを含む、幅広いソースに接続します。
テキストファイル、Excel、XML などの非リレーショナルデータソースを処理します。
複数のソースを単一のターゲットにマップできるようにします。
ソースフィールドからターゲットフィールドへのマッピングを支援するツールを提供します。
自由に変換を注入するためのフレームワークを提供します。
複雑な変換を記述するためのプログラム可能な API。
読み込みプロセスを最適化して速度を向上させます。

score 0 · Accepted Answer

列名の自動/ヒューリスティックマッピング。単純な文字列マッピングの例:

DB1: 顧客 ID

DB2: customer_id

DTS / SSIS で行った作業の多くは、自動的に生成できたはずです。

必ずしも「必要な機能」ではありませんが、実際に多くのユーザーを非常に満足させます。

etl - ETL フレームワークに必要な機能は何ですか?

3 に答える 3

Related

Reference