問題タブ [spark-csv]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2161 参照

dataframe - PySpark: 2 つのデータフレームを比較する方法

2 つの csv ファイルから読み込んだ 2 つのデータフレームがあります。例:

そして私は取得したい:

私はデータフレームの foreach メソッドをいじっていましたが、それを機能させることができませんでした...スパークの初心者として、手がかりに感謝します。

乾杯!

ラファエル

0 投票する
0 に答える
224 参照

scala - sbt を使用して依存関係の jar ファイルをダウンロードするには?

Spark-csv 2.10を使用して正常にビルドされますsbtが、scala サービスを開始するたびに --packages タグを指定する必要があります。このタグの代わりにパッケージを含める方法はありますか?

ありがとう

0 投票する
1 に答える
3067 参照

apache-spark - Sparkでdfをcsvとして保存するとエラーがスローされる

私はpysparkを使用しており、データフレームをロードしています。CSVファイルとして保存しようとすると、以下のエラーが発生します。次のようにsparkを初期化します。

エラー:

0 投票する
0 に答える
444 参照

java - Sparkで複数行の入力フォーマットを1つのレコードに読み込む最良の方法は何ですか?

以下は、入力ファイル (csv) のようなものです。

Carrier_create_date,Message,REF_SHEET_CREATEDATE,7/1/2008 Carrier_create_time,Message,REF_SHEET_CREATETIME,8:53:57 Carrier_campaign,Analog,REF_SHEET_CAMPAIGN,25 Carrier_run_no,Analog,REF_SHEET_RUNNO,7

以下は、各行に含まれる列のリストです: (Carrier_create_date、Carrier_create_time、Carrier_campaign、Carrier_run_no)

データフレームとしての望ましい出力:

2008 年 7 月 1 日、8:53:57、25、7

基本的に、入力ファイルには、各行に列名と値があります。

私がこれまでに試したことは次のとおりです。

上記のコードを実行すると、上記のコードの問題が発生し ます。以下のように空のリストが表示されます (,,,)

私が変わるとき

Carrier_campaign = data.split(",")(3)

Carrier_campaign = data.split(",")(2)

やや近い以下の出力を取得しています (REF_SHEET_CREATEDATE,REF_SHEET_CREATETIME,REF_SHEET_CAMPAIGN,REF_SHEET_RUNNO) (,,,)

上記のコードは、データ行から最後の列位置を選択できませんが、列位置 0、1、2 に対しては機能しています。

だから私の質問は-

  1. 上記のコードの何が問題なのですか

  2. この複数行の入力を読み取り、表形式でデータベースにロードする効率的な方法は何ですか

    これに関するヘルプ/ポインタに感謝します。ありがとう。

0 投票する
1 に答える
935 参照

pyspark - pyspark を使用して apache zeppelin が csv の読み取りに失敗する

on で使用Zeppelin-Sandbox 0.5.6しています。にあるファイルを読み込んでいます。問題は、ファイルの読み取りエラーが時々発生することです。インタープリターが機能するまで、インタープリターを数回再起動する必要があります。私のコードは何も変わりません。私はそれを復元することはできず、それがいつ起こっているのかわかりません。Spark 1.6.1Amazon EMRcsvs3

私のコードは次のようになります:

依存関係の定義:

使用spark-csv:

エラー メッセージ:

csvをに読み込むdataframeと、残りのコードは正常に動作します。

何かアドバイス?

ありがとう!

0 投票する
2 に答える
1994 参照

python - PyCharm IDE で spark-csv パッケージを追加する

pythonスタンドアロンモードでspark-csvライブラリを正常にロードしました

上記のコマンドを実行する

上記のコマンドを実行すると、この場所に 2 つのフォルダー (jar とキャッシュ) が作成されます。

その中に2つのフォルダがあります。そのうちの 1 つには、org.apache.commons_commons-csv-1.1.jar、com.univocity_univocity-parsers-1.5.1.jar、com.databricks_spark-csv_2.10-1.4.0.jar の jar ファイルが含まれています。

このライブラリを PyCharm (Windows 10) にロードしたいのですが、これは既に Spark プログラムを実行するようにセットアップされています。そこで、 Project Interpreter Pathに .ivy2 フォルダーを追加しました。主に私が得ているエラーは次のとおりです。

完全なエラー ログは次のとおりです。

プロジェクト インタープリター パスに既に jar を追加しました。どこが間違っていますか?いくつかの解決策を提案してください。前もって感謝します