Talend のバッチ ETL ジョブのスキーマがわずかに異なる複数のファイル間でメタデータの正規化に取り組むための実用的な方法を探しています。
Excel ファイルごとに約 100 から 150 列の数百の履歴レポート (それぞれ約 25K から 200K レコード) があります。ほとんどの列名はすべてのファイルで同じですが (98% 重複)、微妙な違いがあります。
- 異なる列の順序
- 異なる列名 (略語を使用する場合と使用しない場合があります)
- 異なる列数
- 列の単語間にスペースがある場合もあれば、ドット、ダッシュ、またはアンダースコアがある場合もあります
- 等
特殊なアプリケーションを作成したり、すべてのファイルを手動で修正してブルートフォースしたりする以外に、ファイル列名間の差分と修正をインテリジェントまたは半自動化された方法で提供する優れた無料のツールまたは方法はありますか?