問題タブ [apache-spark]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73609 問題

0 投票する

2 に答える

1402 参照

scala - Spark:単一のパイプライン化された scala コマンドは、個別のコマンドよりも優れていますか?

私はスカラでスパークを使用しています。個別のコマンドよりも1行のコマンドの方が優れているかどうか知りたいですか? あるとしたらどんなメリットがありますか？速度の面で効率が向上しますか? なんで？

例えば

に対して

scala apache-spark

2013-10-13T01:12:23.417

0 投票する

1 に答える

596 参照

json - Scala の JSON ライブラリと計算の分散

Scala で非常に大きな JSON ファイル (それぞれ約 400 MB) を計算したいと考えています。

私のユースケースはバッチ処理です。同時に複数の非常に大きなファイル (最大 20 GB、その後カットして処理) を受け取ることができ、それらをキューとしてすばやく処理したい (ただし、この投稿の主題ではありません!)。つまり、実際には分散アーキテクチャとパフォーマンスの問題に関するものです。

私の JSON ファイル形式はオブジェクトの配列で、各 JSON オブジェクトには少なくとも 20 個のフィールドが含まれています。私のフローは、大きく 2 つのステップで構成されています。1 つ目は、JSON オブジェクトの Scala オブジェクトへのマッピングです。2 番目のステップは、Scala オブジェクトデータに対して行っている変換です。

すべてのファイルをメモリにロードすることを避けるために、インクリメンタル解析が可能な解析ライブラリが必要です。非常に多くのライブラリ (Play-JSON、Jerkson、Lift-JSON、ビルトインの scala.util.parsing.json.JSON、Gson) があり、依存関係を最小限に抑える必要があるため、どれを使用すればよいかわかりません。

優れたパフォーマンスで大量の解析に使用できるライブラリのアイデアはありますか?

また、JSON ファイルのマッピングとフィールドで行われた変換 (複数のノード間) を並行して処理する方法を探しています。

Apache Spark を使用してそれを実行できると思いますか? または、マッピング/変換を加速/分散する別の方法はありますか?

助けてくれてありがとう。

よろしく、トーマス

2013-10-13T22:16:58.197

0 投票する

1 に答える

2197 参照

java - Spark でのソート時の NotSerializableException

それぞれがユーザーに属するメッセージのリスト (JSON 形式) を取得し、各ユーザーのメッセージをカウントし、上位 10 人のユーザーを出力する単純なストリーム処理 Spark ジョブを作成しようとしています。

ただし、削減されたカウントをソートするために Comparator> を定義すると、java.io.NotSerializableExceptionがスローされてすべてが失敗します。

Spark に対する私の依存関係:

私が使用しているJavaコード：

結果のスタックトレース:

Spark API のドキュメントを調べましたが、正しい方向性を示すものは何も見つかりませんでした。何か間違ったことをしていますか、それとも Spark のバグですか? どんな助けでも喜んでいただければ幸いです。

java sorting apache-spark notserializableexception

2013-10-17T17:13:32.520

0 投票する

2 に答える

6091 参照

scala - scala を使用して Spark ストリーミングの Twitter 人気タグを実行する方法は?

私はSparkを初めて使用するので、ガイドしてください。

Scala を使用した Spark ストリーミングに関連する使用可能な例が多数あります。

https://github.com/apache/incubator-spark/tree/master/examples/src/main/scala/org/apache/spark/streaming/examplesから確認できます。

TwitterPopularTags.scala を実行したい。

この例では、Twitter ログインの詳細を設定できません。

http://spark.incubator.apache.org/docs/latest/streaming-programming-guide.html#linking-with-spark-streaming

ネットワークカウントの例を正常に実行できました。

しかし、実行する
./run-example org.apache.spark.streaming.examples.TwitterPopularTags local[2] と、認証失敗の問題が表示されます...

TwitterPopularTags.scala のような文字列コンテキストを初期化する前に、Twitter のログインの詳細を設定します。

ガイドしてください。

scala twitter streaming apache-spark

2013-10-30T09:52:53.730

0 投票する

2 に答える

743 参照

scala - Scala コードが実行されない

Spark で次のスカラコードを実行しようとしていますが、何らかの理由で関数選択が呼び出されません。

選択関数は次のように定義されます。

println ステートメントが実行されていません。さらに、関数は何も返しません。sc は、spark コンテキストオブジェクトです。

scala apache-spark

2013-10-31T01:26:17.357

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark]

scala - Spark:単一のパイプライン化された scala コマンドは、個別のコマンドよりも優れていますか?

json - Scala の JSON ライブラリと計算の分散

java - Spark でのソート時の NotSerializableException

scala - scala を使用して Spark ストリーミングの Twitter 人気タグを実行する方法は?

scala - Scala コードが実行されない

Reference