apache-spark - pysparkを使用してフィールド内にカンマを含むCSVファイルを読み取る方法は?

質問する 2018-10-08T14:54:17.863

8166 次

列値内にコンマを含む csv ファイルがあります。例えば、

Column1,Column2,Column3    
123,"45,6",789

データに余分なコンマがある場合、値は二重引用符で囲まれます。上記の例では、値は Column1=123、Column2=45,6、および Column3=789 ですが、データを読み取ろうとすると、Column2 フィールドに余分なカンマがあるため、4 つの値が返されます。

PySparkでこのデータを読み取るときに正しい値を取得するにはどうすればよいですか? Spark 1.6.3を使用しています

私は現在、以下を実行してrddを作成し、次にrddからデータフレームを作成しています。

rdd = sc.textFile(input_file).map(lambda line: line.split(','))
df = sqlContext.createDataFrame(rdd)

1 に答える 1