問題タブ [spark-csv]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

136 問題

0 投票する

1 に答える

2161 参照

dataframe - PySpark: 2 つのデータフレームを比較する方法

2 つの csv ファイルから読み込んだ 2 つのデータフレームがあります。例:

そして私は取得したい:

私はデータフレームの foreach メソッドをいじっていましたが、それを機能させることができませんでした...スパークの初心者として、手がかりに感謝します。

乾杯！

ラファエル

2016-04-25T18:25:18.417

0 投票する

0 に答える

224 参照

scala - sbt を使用して依存関係の jar ファイルをダウンロードするには?

Spark-csv 2.10を使用して正常にビルドされますsbtが、scala サービスを開始するたびに --packages タグを指定する必要があります。このタグの代わりにパッケージを含める方法はありますか?

ありがとう

scala apache-spark sbt spark-csv

2016-05-02T06:48:06.743

0 投票する

1 に答える

3067 参照

apache-spark - Sparkでdfをcsvとして保存するとエラーがスローされる

私はpysparkを使用しており、データフレームをロードしています。CSVファイルとして保存しようとすると、以下のエラーが発生します。次のようにsparkを初期化します。

エラー：

apache-spark spark-csv

2016-05-16T17:37:06.500

0 投票する

0 に答える

444 参照

java - Sparkで複数行の入力フォーマットを1つのレコードに読み込む最良の方法は何ですか?

以下は、入力ファイル (csv) のようなものです。

Carrier_create_date,Message,REF_SHEET_CREATEDATE,7/1/2008 Carrier_create_time,Message,REF_SHEET_CREATETIME,8:53:57 Carrier_campaign,Analog,REF_SHEET_CAMPAIGN,25 Carrier_run_no,Analog,REF_SHEET_RUNNO,7

以下は、各行に含まれる列のリストです: (Carrier_create_date、Carrier_create_time、Carrier_campaign、Carrier_run_no)

データフレームとしての望ましい出力:

2008 年 7 月 1 日、8:53:57、25、7

基本的に、入力ファイルには、各行に列名と値があります。

私がこれまでに試したことは次のとおりです。

上記のコードを実行すると、上記のコードの問題が発生し ます。以下のように空のリストが表示されます (,,,)

私が変わるとき

Carrier_campaign = data.split(",")(3)

に

Carrier_campaign = data.split(",")(2)

やや近い以下の出力を取得しています (REF_SHEET_CREATEDATE,REF_SHEET_CREATETIME,REF_SHEET_CAMPAIGN,REF_SHEET_RUNNO) (,,,)

上記のコードは、データ行から最後の列位置を選択できませんが、列位置 0、1、2 に対しては機能しています。

だから私の質問は-

上記のコードの何が問題なのですか
この複数行の入力を読み取り、表形式でデータベースにロードする効率的な方法は何ですか

これに関するヘルプ/ポインタに感謝します。ありがとう。

java python scala apache-spark spark-csv

2016-06-15T04:30:55.960

0 投票する

1 に答える

935 参照

pyspark - pyspark を使用して apache zeppelin が csv の読み取りに失敗する

on で使用Zeppelin-Sandbox 0.5.6しています。にあるファイルを読み込んでいます。問題は、ファイルの読み取りエラーが時々発生することです。インタープリターが機能するまで、インタープリターを数回再起動する必要があります。私のコードは何も変わりません。私はそれを復元することはできず、それがいつ起こっているのかわかりません。Spark 1.6.1Amazon EMRcsvs3

私のコードは次のようになります：

依存関係の定義:

使用spark-csv:

エラーメッセージ:

csvをに読み込むdataframeと、残りのコードは正常に動作します。

何かアドバイス？

ありがとう！

pyspark spark-dataframe amazon-emr apache-zeppelin spark-csv

2016-06-21T08:56:47.077

0 投票する

2 に答える

1994 参照

python - PyCharm IDE で spark-csv パッケージを追加する

pythonスタンドアロンモードでspark-csvライブラリを正常にロードしました

上記のコマンドを実行する

上記のコマンドを実行すると、この場所に 2 つのフォルダー (jar とキャッシュ) が作成されます。

その中に2つのフォルダがあります。そのうちの 1 つには、org.apache.commons_commons-csv-1.1.jar、com.univocity_univocity-parsers-1.5.1.jar、com.databricks_spark-csv_2.10-1.4.0.jar の jar ファイルが含まれています。

このライブラリを PyCharm (Windows 10) にロードしたいのですが、これは既に Spark プログラムを実行するようにセットアップされています。そこで、 Project Interpreter Pathに .ivy2 フォルダーを追加しました。主に私が得ているエラーは次のとおりです。

完全なエラーログは次のとおりです。

プロジェクトインタープリターパスに既に jar を追加しました。どこが間違っていますか？いくつかの解決策を提案してください。前もって感謝します

python apache-spark pycharm pyspark spark-csv

2016-06-27T09:31:05.047

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-csv]

dataframe - PySpark: 2 つのデータフレームを比較する方法

scala - sbt を使用して依存関係の jar ファイルをダウンロードするには?

apache-spark - Sparkでdfをcsvとして保存するとエラーがスローされる

java - Sparkで複数行の入力フォーマットを1つのレコードに読み込む最良の方法は何ですか?

pyspark - pyspark を使用して apache zeppelin が csv の読み取りに失敗する

python - PyCharm IDE で spark-csv パッケージを追加する

Reference