問題タブ [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - MAP (PySpark) によって返されるタプルのリスト (または反復子)
私はマッパーメソッドを持っています:
私が必要としているのは、実際には、通常の wordcount の例からそれほど離れていません。私はすでに作業中のスクリプトを持っていますが、マッパーメソッドが次のようになっている場合のみ:
これはその呼び出しがどのように見えるかです:
マッパーでジェネレーターをサポートするコードを書くのに 2 時間費やしました。しかし、それはできませんでした。リストを返すことにも同意します:
ここ: https://groups.google.com/forum/#!searchin/spark-users/flatmap $20multiple/spark-users/1WqVhRBaJsU/-D5QRbenlUgJ flatMap を使用する必要があることがわかりましたが、うまくいきませんでした-その後、レデューサーは(key1、value1、key2、value2、value3、...)のような入力を取得し始めました-しかし、それは[(key1、value1)、(key2、value2、value3)...]である必要があります。言い換えれば、リデューサーは単一のピースのみを取り始め、それが値なのかキーなのか、そして値の場合はどのキーに属するのかを知りません。
では、イテレータまたはリストを返すマッパーを使用するにはどうすればよいでしょうか?
ありがとう!
apache-spark - データサイズがメモリよりも大きい場合、PySpark は利点を提供しますか?
大きすぎてメモリに完全にロードできないデータを扱う場合、PySpark は何らかの利点を提供しますか? これ (およびその他の機能) を IPy Parallel に基づくアプローチと比較しようとしています。
sbt - SBT の特定のコード セグメントの libraryDependencies を変更しますか?
SBT を使用して Spark プロジェクトを構築しています。
libraryDependenciesを含めると、プログラムの一部が機能し、他の部分が例外をスローします (で指定されたバージョンが間違っているためlibraryDependencies
)。外すlibraryDependencies
と逆です。
libraryDependencies
コンパイル時または実行時に (バージョンを変更する)動的に変更する方法はありますか?
それに似ています(疑似コード):
これはスコープによって行うことができますか?
maven - Shark API によるクエリが機能しない
クラスター上の Hive テーブルから Shark Java API を介してクエリ (単純な選択) を作成しようとしています。
ただし、次のエラー メッセージが表示されます。
このエラーが続きます:
Guava の依存関係に問題があるようですが、何が問題なのかわかりません。
Spark-0.8.0 、Shark-0.8.0、Hive-0.9.0、および Hadoop-4.5.0 を使用しています。
Guava を必要とする私の .pom ファイルの唯一の依存関係は次のとおりです。
この問題を解決する方法を知っている人はいますか?
ありがとう。
java - Javaを使用してHadoop(HDFS)ファイルの最初の行を効率的に読み取る方法は?
Hadoop クラスターに大きな CSV ファイルがあります。ファイルの最初の行は、フィールド名で構成される「ヘッダー」行です。このヘッダー行で操作を行いたいのですが、ファイル全体を処理したくありません。また、私のプログラムは Java で書かれ、Spark を使用しています。
Hadoop クラスターで大きな CSV ファイルの最初の行だけを読み取る効率的な方法は何ですか?