問題タブ [pyspark-dataframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
877 参照

apache-spark - pyspark: すべてのセルが正規表現に一致する列を返す

複数の列を持つ Spark データフレームがあり、各列には文字列が含まれています。

例: 入力: +--------------+--------------+--------------+--------------+ | c1| c2 | c3| c4| +--------------+--------------+--------------+--------------+ |11 - 12 - 1993| 4 | 4 | 2014 | 8 - 7 - 2013 | null | |12 / 6 / 1965 | 8 - 6 - 2013 | date missing |11 - 12 - 1993| |10 / 5 / 2001 | 7 - 11 - 2011| 4 | 5 | 2015 | 10 / 5 / 2001| +--------------+--------------+--------------+--------------+

すべての値が特定の正規表現パターンに一致する列を返す必要があります。

この例の場合、すべての値が有効な日付であるすべての列を返す必要があります。つまり、列 C1 と C2 のすべての値に有効な日付があり (形式に関係なく)、この場合は返される必要があります。

例 出力 +--------------+--------------+ | c1| c2 | +--------------+--------------+ |11 - 12 - 1993| 4 | 4 | 2014 | |12 / 6 / 1965 | 8 - 6 - 2013 | |10 / 5 / 2001 | 7 - 11 - 2011| +--------------+--------------+

私は正規表現を持っています。これを行う最良の方法は何ですか?これを行うための最も効率的な方法を見つけたいと思います。