私のソースは以下に示すように異なる日付形式を持っています。また、Pentaho Data で試行されたソースの日付パターンを特定するためのアルゴリズムを探しています。
日付列 (文字列)
"20150210"
"20050822--"
"2014-02-May"
"20051509--"
"02-May-2014"
"2013-May-12"
"12DEC2013"
"15050815"
"May-02- 2014"
"12312015"
PDI では、パターンごとに If 条件を記述することで JS ステップを介して達成できることはわかっていますが、これは良い考えではありません。このアプローチでは、巨大なレコードを処理するときに変換が死んでしまい、日付パターンを検索する効率的な方法を探します。
これは、すべての ETL プロジェクトで非常に一般的な問題だと思います。ここでは、SAS Data Integration、Informatica、SSIS などのエンタープライズ ベンダーがどのように簡単に処理できるかを理解しようとしています。
ソースパターンを識別するアルゴリズムはありますか。もしそうなら、どれですか?
上記の形式は限定されません。