問題タブ [apache-spark]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73609 問題

0 投票する

1 に答える

19329 参照

python - MAP (PySpark) によって返されるタプルのリスト (または反復子)

私はマッパーメソッドを持っています:

私が必要としているのは、実際には、通常の wordcount の例からそれほど離れていません。私はすでに作業中のスクリプトを持っていますが、マッパーメソッドが次のようになっている場合のみ:

これはその呼び出しがどのように見えるかです:

マッパーでジェネレーターをサポートするコードを書くのに 2 時間費やしました。しかし、それはできませんでした。リストを返すことにも同意します：

ここ: https://groups.google.com/forum/#!searchin/spark-users/flatmap $20multiple/spark-users/1WqVhRBaJsU/-D5QRbenlUgJ flatMap を使用する必要があることがわかりましたが、うまくいきませんでした-その後、レデューサーは(key1、value1、key2、value2、value3、...)のような入力を取得し始めました-しかし、それは[(key1、value1)、(key2、value2、value3)...]である必要があります。言い換えれば、リデューサーは単一のピースのみを取り始め、それが値なのかキーなのか、そして値の場合はどのキーに属するのかを知りません。

では、イテレータまたはリストを返すマッパーを使用するにはどうすればよいでしょうか?

ありがとう！

python apache-spark

2014-01-13T16:33:30.927

0 投票する

1 に答える

353 参照

apache-spark - データサイズがメモリよりも大きい場合、PySpark は利点を提供しますか?

大きすぎてメモリに完全にロードできないデータを扱う場合、PySpark は何らかの利点を提供しますか? これ (およびその他の機能) を IPy Parallel に基づくアプローチと比較しようとしています。

apache-spark

2014-01-13T21:59:16.280

0 投票する

1 に答える

723 参照

sbt - SBT の特定のコードセグメントの libraryDependencies を変更しますか?

SBT を使用して Spark プロジェクトを構築しています。

libraryDependenciesを含めると、プログラムの一部が機能し、他の部分が例外をスローします (で指定されたバージョンが間違っているためlibraryDependencies)。外すlibraryDependenciesと逆です。

libraryDependenciesコンパイル時または実行時に (バージョンを変更する)動的に変更する方法はありますか?

それに似ています（疑似コード）：

これはスコープによって行うことができますか?

sbt apache-spark

2014-01-15T14:13:25.033

0 投票する

1 に答える

570 参照

maven - Shark API によるクエリが機能しない

クラスター上の Hive テーブルから Shark Java API を介してクエリ (単純な選択) を作成しようとしています。

ただし、次のエラーメッセージが表示されます。

このエラーが続きます：

Guava の依存関係に問題があるようですが、何が問題なのかわかりません。

Spark-0.8.0 、Shark-0.8.0、Hive-0.9.0、および Hadoop-4.5.0 を使用しています。

Guava を必要とする私の .pom ファイルの唯一の依存関係は次のとおりです。

この問題を解決する方法を知っている人はいますか?

ありがとう。

maven hadoop guava apache-spark shark-sql

2014-01-15T15:46:02.770

0 投票する

1 に答える

3107 参照

java - Javaを使用してHadoop(HDFS)ファイルの最初の行を効率的に読み取る方法は?

Hadoop クラスターに大きな CSV ファイルがあります。ファイルの最初の行は、フィールド名で構成される「ヘッダー」行です。このヘッダー行で操作を行いたいのですが、ファイル全体を処理したくありません。また、私のプログラムは Java で書かれ、Spark を使用しています。

Hadoop クラスターで大きな CSV ファイルの最初の行だけを読み取る効率的な方法は何ですか?

java csv hadoop apache-spark

2014-01-17T14:52:55.593

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark]

python - MAP (PySpark) によって返されるタプルのリスト (または反復子)

apache-spark - データサイズがメモリよりも大きい場合、PySpark は利点を提供しますか?

sbt - SBT の特定のコード セグメントの libraryDependencies を変更しますか?

maven - Shark API によるクエリが機能しない

java - Javaを使用してHadoop(HDFS)ファイルの最初の行を効率的に読み取る方法は?

Reference

sbt - SBT の特定のコードセグメントの libraryDependencies を変更しますか?