1

列値内にコンマを含む csv ファイルがあります。例えば、

Column1,Column2,Column3    
123,"45,6",789  

データに余分なコンマがある場合、値は二重引用符で囲まれます。上記の例では、値は Column1=123、Column2=45,6、および Column3=789 ですが、データを読み取ろうとすると、Column2 フィールドに余分なカンマがあるため、4 つの値が返されます。

PySparkでこのデータを読み取るときに正しい値を取得するにはどうすればよいですか? Spark 1.6.3を使用しています

私は現在、以下を実行してrddを作成し、次にrddからデータフレームを作成しています。

rdd = sc.textFile(input_file).map(lambda line: line.split(','))
df = sqlContext.createDataFrame(rdd) 
4

1 に答える 1