問題タブ [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
665 参照

ubuntu - sbt.ResolveException: ダウンロードに失敗しました: org.scalaz#scalaz-core_2.9.2;6.0.4 Ubuntu に Apache Spark 0.8.1 をインストール中に

http://bigdatastatistics.blogspot.com/2013/11/installing-apache-spark-on-ubuntu-1204.htmlで説明されているように、新しくインストールした Ubuntu VMWare 仮想マシンに Apache Spark をインストールしようとしています。

実際に Spark をインストールしようとするまでは、すべて問題なく動作しているようです。

私は Scala や SBT についてあまり詳しくないので、ここで何が問題だったのかを理解するのを手伝ってくれれば、本当に感謝しています。

Ubuntu バージョン: 12.04.3 (32 ビット) Hadoop バージョン: 1.2.1 Spark バージョン: 0.8.1 Scala バージョン: 2.10.3

0 投票する
3 に答える
26034 参照

scala - Intellij IDEA で spark サンプル プログラムを実行する方法

最初に、ダウンロードした spark プロジェクトのルートからコマンドラインで実行しました

成功しました。

次に、spark pom.xml をインポートして intellij プロジェクトを作成しました。

IDE では、サンプル クラスは問題なく表示されます。すべてのライブラリが見つかります。これはスクリーンショットで確認できます。

ただし、main() を実行しようとすると、SparkContext で ClassNotFoundException が発生します。

Intellij がこの maven ベースの scala プログラムを単純にロードして実行できないのはなぜですか? また、回避策として何ができますか?

以下に示すように、SparkContext は IDE では正常に見えますが、実行しようとしても見つかりません。 ここに画像の説明を入力

テストは、main() 内で右クリックして実行されました。

ここに画像の説明を入力

.. そして Run GroupByTest を選択します

それは与えます

実行構成は次のとおりです。

ここに画像の説明を入力

0 投票する
1 に答える
1272 参照

scala - Spark ジョブがローカルで並列化されていない (ローカル ファイルシステムから Parquet + Avro を使用)

編集 2

RDD を 8 つのパーティションに再分割することで、問題を間接的に解決しました。avro オブジェクトが「Java シリアライズ可能」ではないという障害にぶつかり、avro シリアライゼーションを kryo に委譲するためのスニペットが見つかりました。元の問題はまだ残っています。

編集 1: map 関数のローカル変数参照を削除

io/schema に parquet と avro を使用して、spark で計算負荷の高いジョブを実行するためのドライバーを作成しています。Spark にすべてのコアを使用させることができないようです。私は何を間違っていますか?キーを null に設定したからですか?

Hadoop がファイルを整理する方法について頭を悩ませています。私のファイルにはギガバイトの生データがあるので、デフォルトのブロックとページのサイズで物事が並列化されることを期待する必要があります。

処理のために入力を ETL する関数は次のようになります。

そして私の変換は次のようになります:

0 投票する
2 に答える
3241 参照

apache-spark - Spark FileStreaming が foreachRDD で機能しない

私はSparkの初心者で、Spark fileStreamingの小さなサンプルアプリケーションを構築しています。私が望んでいたのは、行ごとに読み取るのではなく、ファイル全体を一度に読み取ることだけです(これがtextFileStreamの機能だと思います)。

コードは以下のとおりです。

このコードは、次のような例外で失敗しています:

これがストリーム内のファイルの内容を表示する正しい方法でない場合は、例を教えてください。私はたくさん検索しましたが、fileStream を使用する適切なものを見つけることができませんでした。

0 投票する
1 に答える
405 参照

scala - SparkContext textFile の InputPath 構文

SparkContextで入力パスを指定する方法を教えてtextFile()ください。以下のように、私にはうまくいきません。

ここで、54310 は で指定されたポート番号です。core-site.xml

0 投票する
0 に答える
665 参照

python - PySpark シェルからアプリケーションのメモリ サイズを設定する

2500 万の整数を並べ替えようとしています。しかし、使用しようとするとcollect()OutofMemory Error: Java Heap Spaceエラーが発生します。以下はソースコードです。

どこが間違っていますか?テキストファイルのサイズは147MBです。すべての設定はデフォルトです。Spark v0.9.0 を使用しています。

編集: 250 万の整数を含む Works ファイル。しかし、問題は500万から始まります。また、1,000 万でテストしたところ、同じ OME エラーが発生しました。

スタック トレースは次のとおりです。

0 投票する
7 に答える
8817 参照

java - Spark 0.9.0 でジョブを実行するとエラーがスローされる

HDFS からファイルを読み取るコードをデプロイしようとしている場所に、Apache Spark 0.9.0 クラスターがインストールされています。このコードは警告をスローし、最終的にジョブは失敗します。ここにコードがあります

以下は警告メッセージです

初期ジョブはリソースを受け入れていません。クラスター UI をチェックして、ワーカーが登録され、十分なメモリがあることを確認します

これを取り除く方法、またはいくつかの設定がありません。