問題タブ [apache-spark-1.6]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
8166 参照

apache-spark - pysparkを使用してフィールド内にカンマを含むCSVファイルを読み取る方法は?

列値内にコンマを含む csv ファイルがあります。例えば、

データに余分なコンマがある場合、値は二重引用符で囲まれます。上記の例では、値は Column1=123、Column2=45,6、および Column3=789 ですが、データを読み取ろうとすると、Column2 フィールドに余分なカンマがあるため、4 つの値が返されます。

PySparkでこのデータを読み取るときに正しい値を取得するにはどうすればよいですか? Spark 1.6.3を使用しています

私は現在、以下を実行してrddを作成し、次にrddからデータフレームを作成しています。

0 投票する
1 に答える
734 参照

java - Java Spark でキャスト メソッドが null 値になる

2 つのデータフレームで結合を実行する単純なユース ケースがあり、spark 1.6.3 バージョンを使用しています。問題は、キャスト メソッドを使用して文字列型を整数型にキャストしようとすると、結果の列がすべて null 値になることです。

ここに記載されているすべてのソリューションを既に試しましたデータフレームで列をキャストする方法は? しかし、すべての質問にはscala apiの回答があり、Java apiで動作する人を見つけることができませんでした.

解決策を見つけることができません。また、変換しようとしている列は文字列型であり、末尾に空白が含まれている可能性があります。これは問題になる可能性がありますか? はいの場合、どうすれば削除できますか。以下のように削除しようとしましたが、うまくいかないようです。これは、spark データフレームを使用する初めての作業であるため、これに関するヘルプをいただければ幸いです。ありがとう!