問題タブ [pyspark-dataframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - pyspark: すべてのセルが正規表現に一致する列を返す
複数の列を持つ Spark データフレームがあり、各列には文字列が含まれています。
例: 入力:
+--------------+--------------+--------------+--------------+
| c1| c2 | c3| c4|
+--------------+--------------+--------------+--------------+
|11 - 12 - 1993| 4 | 4 | 2014 | 8 - 7 - 2013 | null |
|12 / 6 / 1965 | 8 - 6 - 2013 | date missing |11 - 12 - 1993|
|10 / 5 / 2001 | 7 - 11 - 2011| 4 | 5 | 2015 | 10 / 5 / 2001|
+--------------+--------------+--------------+--------------+
すべての値が特定の正規表現パターンに一致する列を返す必要があります。
この例の場合、すべての値が有効な日付であるすべての列を返す必要があります。つまり、列 C1 と C2 のすべての値に有効な日付があり (形式に関係なく)、この場合は返される必要があります。
例 出力
+--------------+--------------+
| c1| c2 |
+--------------+--------------+
|11 - 12 - 1993| 4 | 4 | 2014 |
|12 / 6 / 1965 | 8 - 6 - 2013 |
|10 / 5 / 2001 | 7 - 11 - 2011|
+--------------+--------------+
私は正規表現を持っています。これを行う最良の方法は何ですか?これを行うための最も効率的な方法を見つけたいと思います。