問題タブ [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
19329 参照

python - MAP (PySpark) によって返されるタプルのリスト (または反復子)

私はマッパーメソッドを持っています:

私が必要としているのは、実際には、通常の wordcount の例からそれほど離れていません。私はすでに作業中のスクリプトを持っていますが、マッパーメソッドが次のようになっている場合のみ:

これはその呼び出しがどのように見えるかです:

マッパーでジェネレーターをサポートするコードを書くのに 2 時間費やしました。しかし、それはできませんでした。リストを返すことにも同意します:

ここ: https://groups.google.com/forum/#!searchin/spark-users/flatmap $20multiple/spark-users/1WqVhRBaJsU/-D5QRbenlUgJ flatMap を使用する必要があることがわかりましたが、うまくいきませんでした-その後、レデューサーは(key1、value1、key2、value2、value3、...)のような入力を取得し始めました-しかし、それは[(key1、value1)、(key2、value2、value3)...]である必要があります。言い換えれば、リデューサーは単一のピースのみを取り始め、それが値なのかキーなのか、そして値の場合はどのキーに属するのかを知りません。

では、イテレータまたはリストを返すマッパーを使用するにはどうすればよいでしょうか?

ありがとう!

0 投票する
1 に答える
353 参照

apache-spark - データサイズがメモリよりも大きい場合、PySpark は利点を提供しますか?

大きすぎてメモリに完全にロードできないデータを扱う場合、PySpark は何らかの利点を提供しますか? これ (およびその他の機能) を IPy Parallel に基づくアプローチと比較しようとしています。

0 投票する
1 に答える
723 参照

sbt - SBT の特定のコード セグメントの libraryDependencies を変更しますか?

SBT を使用して Spark プロジェクトを構築しています。

libraryDependenciesを含めると、プログラムの一部が機能し、他の部分が例外をスローします (で指定されたバージョンが間違っているためlibraryDependencies)。外すlibraryDependenciesと逆です。

libraryDependenciesコンパイル時または実行時に (バージョンを変更する)動的に変更する方法はありますか?

それに似ています(疑似コード):

これはスコープによって行うことができますか?

0 投票する
1 に答える
570 参照

maven - Shark API によるクエリが機能しない

クラスター上の Hive テーブルから Shark Java API を介してクエリ (単純な選択) を作成しようとしています。

ただし、次のエラー メッセージが表示されます。

このエラーが続きます:

Guava の依存関係に問題があるようですが、何が問題なのかわかりません。

Spark-0.8.0 、Shark-0.8.0、Hive-0.9.0、および Hadoop-4.5.0 を使用しています。

Guava を必要とする私の .pom ファイルの唯一の依存関係は次のとおりです。

この問題を解決する方法を知っている人はいますか?

ありがとう。

0 投票する
1 に答える
3107 参照

java - Javaを使用してHadoop(HDFS)ファイルの最初の行を効率的に読み取る方法は?

Hadoop クラスターに大きな CSV ファイルがあります。ファイルの最初の行は、フィールド名で構成される「ヘッダー」行です。このヘッダー行で操作を行いたいのですが、ファイル全体を処理したくありません。また、私のプログラムは Java で書かれ、Spark を使用しています。

Hadoop クラスターで大きな CSV ファイルの最初の行だけを読み取る効率的な方法は何ですか?