問題タブ [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ubuntu - sbt.ResolveException: ダウンロードに失敗しました: org.scalaz#scalaz-core_2.9.2;6.0.4 Ubuntu に Apache Spark 0.8.1 をインストール中に
http://bigdatastatistics.blogspot.com/2013/11/installing-apache-spark-on-ubuntu-1204.htmlで説明されているように、新しくインストールした Ubuntu VMWare 仮想マシンに Apache Spark をインストールしようとしています。
実際に Spark をインストールしようとするまでは、すべて問題なく動作しているようです。
私は Scala や SBT についてあまり詳しくないので、ここで何が問題だったのかを理解するのを手伝ってくれれば、本当に感謝しています。
Ubuntu バージョン: 12.04.3 (32 ビット) Hadoop バージョン: 1.2.1 Spark バージョン: 0.8.1 Scala バージョン: 2.10.3
scala - Intellij IDEA で spark サンプル プログラムを実行する方法
最初に、ダウンロードした spark プロジェクトのルートからコマンドラインで実行しました
成功しました。
次に、spark pom.xml をインポートして intellij プロジェクトを作成しました。
IDE では、サンプル クラスは問題なく表示されます。すべてのライブラリが見つかります。これはスクリーンショットで確認できます。
ただし、main() を実行しようとすると、SparkContext で ClassNotFoundException が発生します。
Intellij がこの maven ベースの scala プログラムを単純にロードして実行できないのはなぜですか? また、回避策として何ができますか?
以下に示すように、SparkContext は IDE では正常に見えますが、実行しようとしても見つかりません。
テストは、main() 内で右クリックして実行されました。
.. そして Run GroupByTest を選択します
それは与えます
実行構成は次のとおりです。
scala - Spark ジョブがローカルで並列化されていない (ローカル ファイルシステムから Parquet + Avro を使用)
編集 2
RDD を 8 つのパーティションに再分割することで、問題を間接的に解決しました。avro オブジェクトが「Java シリアライズ可能」ではないという障害にぶつかり、avro シリアライゼーションを kryo に委譲するためのスニペットが見つかりました。元の問題はまだ残っています。
編集 1: map 関数のローカル変数参照を削除
io/schema に parquet と avro を使用して、spark で計算負荷の高いジョブを実行するためのドライバーを作成しています。Spark にすべてのコアを使用させることができないようです。私は何を間違っていますか?キーを null に設定したからですか?
Hadoop がファイルを整理する方法について頭を悩ませています。私のファイルにはギガバイトの生データがあるので、デフォルトのブロックとページのサイズで物事が並列化されることを期待する必要があります。
処理のために入力を ETL する関数は次のようになります。
そして私の変換は次のようになります:
apache-spark - Spark FileStreaming が foreachRDD で機能しない
私はSparkの初心者で、Spark fileStreamingの小さなサンプルアプリケーションを構築しています。私が望んでいたのは、行ごとに読み取るのではなく、ファイル全体を一度に読み取ることだけです(これがtextFileStreamの機能だと思います)。
コードは以下のとおりです。
このコードは、次のような例外で失敗しています:
これがストリーム内のファイルの内容を表示する正しい方法でない場合は、例を教えてください。私はたくさん検索しましたが、fileStream を使用する適切なものを見つけることができませんでした。
scala - SparkContext textFile の InputPath 構文
SparkContextで入力パスを指定する方法を教えてtextFile()
ください。以下のように、私にはうまくいきません。
ここで、54310 は で指定されたポート番号です。core-site.xml
python - PySpark シェルからアプリケーションのメモリ サイズを設定する
2500 万の整数を並べ替えようとしています。しかし、使用しようとするとcollect()
、OutofMemory Error: Java Heap Space
エラーが発生します。以下はソースコードです。
どこが間違っていますか?テキストファイルのサイズは147MBです。すべての設定はデフォルトです。Spark v0.9.0 を使用しています。
編集: 250 万の整数を含む Works ファイル。しかし、問題は500万から始まります。また、1,000 万でテストしたところ、同じ OME エラーが発生しました。
スタック トレースは次のとおりです。
java - Spark 0.9.0 でジョブを実行するとエラーがスローされる
HDFS からファイルを読み取るコードをデプロイしようとしている場所に、Apache Spark 0.9.0 クラスターがインストールされています。このコードは警告をスローし、最終的にジョブは失敗します。ここにコードがあります
以下は警告メッセージです
初期ジョブはリソースを受け入れていません。クラスター UI をチェックして、ワーカーが登録され、十分なメモリがあることを確認します
これを取り除く方法、またはいくつかの設定がありません。