2

Talend のバッチ ETL ジョブのスキーマがわずかに異なる複数のファイル間でメタデータの正規化に取り組むための実用的な方法を探しています。

Excel ファイルごとに約 100 から 150 列の数百の履歴レポート (それぞれ約 25K から 200K レコード) があります。ほとんどの列名はすべてのファイルで同じですが (98% 重複)、微妙な違いがあります。

  • 異なる列の順序
  • 異なる列名 (略語を使用する場合と使用しない場合があります)
  • 異なる列数
  • 列の単語間にスペースがある場合もあれば、ドット、ダッシュ、またはアンダースコアがある場合もあります

特殊なアプリケーションを作成したり、すべてのファイルを手動で修正してブルートフォースしたりする以外に、ファイル列名間の差分と修正をインテリジェントまたは半自動化された方法で提供する優れた無料のツールまたは方法はありますか?

4

2 に答える 2

1

正確にどのように実行できるかを示すためのリンクが手元にないため、これを暫定的に「回答」として書きます。ただし、Pentaho データ統合は、このようなファイルをロードするための非常に優れた方法を提供します。最初の変換でファイルのメタデータを読み取ることができる方法があります。つまり、列名です。その後、「メタデータ」を使用できます。注入」機能を使用して、ファイルを読み取る次の変換にそのメタデータを注入します。

今; 列名がわずかに異なるシナリオでは、何らかの方法で追加のマッピングを行う必要があります。おそらく、「エイリアス」列名と実際の列名のどこかにルックアップテーブルを保存できます。

いずれにせよ、これを自動化するにはかなり複雑で厄介なタスクのように思えます。

Talend でファイルのさまざまなメタデータを処理する方法は見たことがありません。

于 2012-12-12T17:46:26.877 に答える