問題タブ [spark-csv]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dataframe - PySpark: 2 つのデータフレームを比較する方法
2 つの csv ファイルから読み込んだ 2 つのデータフレームがあります。例:
そして私は取得したい:
私はデータフレームの foreach メソッドをいじっていましたが、それを機能させることができませんでした...スパークの初心者として、手がかりに感謝します。
乾杯!
ラファエル
scala - sbt を使用して依存関係の jar ファイルをダウンロードするには?
Spark-csv 2.10
を使用して正常にビルドされますsbt
が、scala サービスを開始するたびに --packages タグを指定する必要があります。このタグの代わりにパッケージを含める方法はありますか?
ありがとう
apache-spark - Sparkでdfをcsvとして保存するとエラーがスローされる
私はpysparkを使用しており、データフレームをロードしています。CSVファイルとして保存しようとすると、以下のエラーが発生します。次のようにsparkを初期化します。
エラー:
java - Sparkで複数行の入力フォーマットを1つのレコードに読み込む最良の方法は何ですか?
以下は、入力ファイル (csv) のようなものです。
Carrier_create_date,Message,REF_SHEET_CREATEDATE,7/1/2008 Carrier_create_time,Message,REF_SHEET_CREATETIME,8:53:57 Carrier_campaign,Analog,REF_SHEET_CAMPAIGN,25 Carrier_run_no,Analog,REF_SHEET_RUNNO,7
以下は、各行に含まれる列のリストです: (Carrier_create_date、Carrier_create_time、Carrier_campaign、Carrier_run_no)
データフレームとしての望ましい出力:
2008 年 7 月 1 日、8:53:57、25、7
基本的に、入力ファイルには、各行に列名と値があります。
私がこれまでに試したことは次のとおりです。
上記のコードを実行すると、上記のコードの問題が発生し ます。以下のように空のリストが表示されます (,,,)
私が変わるとき
Carrier_campaign = data.split(",")(3)
に
Carrier_campaign = data.split(",")(2)
やや近い以下の出力を取得しています (REF_SHEET_CREATEDATE,REF_SHEET_CREATETIME,REF_SHEET_CAMPAIGN,REF_SHEET_RUNNO) (,,,)
上記のコードは、データ行から最後の列位置を選択できませんが、列位置 0、1、2 に対しては機能しています。
だから私の質問は-
上記のコードの何が問題なのですか
この複数行の入力を読み取り、表形式でデータベースにロードする効率的な方法は何ですか
これに関するヘルプ/ポインタに感謝します。ありがとう。
pyspark - pyspark を使用して apache zeppelin が csv の読み取りに失敗する
on で使用Zeppelin-Sandbox 0.5.6
しています。にあるファイルを読み込んでいます。問題は、ファイルの読み取りエラーが時々発生することです。インタープリターが機能するまで、インタープリターを数回再起動する必要があります。私のコードは何も変わりません。私はそれを復元することはできず、それがいつ起こっているのかわかりません。Spark 1.6.1
Amazon EMR
csv
s3
私のコードは次のようになります:
依存関係の定義:
使用spark-csv
:
エラー メッセージ:
csv
をに読み込むdataframe
と、残りのコードは正常に動作します。
何かアドバイス?
ありがとう!
python - PyCharm IDE で spark-csv パッケージを追加する
pythonスタンドアロンモードでspark-csvライブラリを正常にロードしました
上記のコマンドを実行すると、この場所に 2 つのフォルダー (jar とキャッシュ) が作成されます。
その中に2つのフォルダがあります。そのうちの 1 つには、org.apache.commons_commons-csv-1.1.jar、com.univocity_univocity-parsers-1.5.1.jar、com.databricks_spark-csv_2.10-1.4.0.jar の jar ファイルが含まれています。
このライブラリを PyCharm (Windows 10) にロードしたいのですが、これは既に Spark プログラムを実行するようにセットアップされています。そこで、 Project Interpreter Pathに .ivy2 フォルダーを追加しました。主に私が得ているエラーは次のとおりです。
完全なエラー ログは次のとおりです。
プロジェクト インタープリター パスに既に jar を追加しました。どこが間違っていますか?いくつかの解決策を提案してください。前もって感謝します