2

複数の列を持つ Spark データフレームがあり、各列には文字列が含まれています。

例: 入力: +--------------+--------------+--------------+--------------+ | c1| c2 | c3| c4| +--------------+--------------+--------------+--------------+ |11 - 12 - 1993| 4 | 4 | 2014 | 8 - 7 - 2013 | null | |12 / 6 / 1965 | 8 - 6 - 2013 | date missing |11 - 12 - 1993| |10 / 5 / 2001 | 7 - 11 - 2011| 4 | 5 | 2015 | 10 / 5 / 2001| +--------------+--------------+--------------+--------------+

すべての値が特定の正規表現パターンに一致する列を返す必要があります。

この例の場合、すべての値が有効な日付であるすべての列を返す必要があります。つまり、列 C1 と C2 のすべての値に有効な日付があり (形式に関係なく)、この場合は返される必要があります。

例 出力 +--------------+--------------+ | c1| c2 | +--------------+--------------+ |11 - 12 - 1993| 4 | 4 | 2014 | |12 / 6 / 1965 | 8 - 6 - 2013 | |10 / 5 / 2001 | 7 - 11 - 2011| +--------------+--------------+

私は正規表現を持っています。これを行う最良の方法は何ですか?これを行うための最も効率的な方法を見つけたいと思います。

4

1 に答える 1