問題タブ [apache-spark-1.6]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

111 問題

0 投票する

2 に答える

5214 参照

hadoop - pysparkでhdfsブロックサイズを変更するには?

pySpark を使用して寄木細工のファイルを作成します。そのファイルの hdfs ブロックサイズを変更したいと思います。私はこのようにブロックサイズを設定しましたが、うまくいきません:

これは、pySpark ジョブを開始する前に設定する必要がありますか? もしそうなら、それを行う方法。

2016-12-04T02:46:34.177

0 投票する

1 に答える

1036 参照

scala - Spark StreamingでKafkaのレコードをforeachRDDにする方法は?

Kafka をデータソースとして Spark Streaming アプリケーションを実行したいと考えています。ローカルでは問題なく動作しますが、クラスターでは失敗します。私はspark 1.6.2とScala 2.10.6を使用しています。

ソースコードとスタックトレースは次のとおりです。

DevMain.scala

object DevMain は Logging を使用して App を拡張します {

6 行目に a がNullPointerException表示され、コードが入力されませんlme.parser。

これはlme.parser次のとおりです。

の line1 にログオンしましたがlme.parser、印刷されず、入力されませんlem.parser。

... 3 つ以上

これは、ブロードキャスト変数が変更された後の新しい例外です

scala apache-kafka spark-streaming apache-spark-1.6

2016-12-26T16:38:25.983

0 投票する

2 に答える

3234 参照

scala - 重複なしでSparkスキーマを組み合わせる?

私が持っているデータを処理するために、以前にスキーマを抽出しているので、データセットを読み取るときに、スキーマを推測するという高価な手順を実行する代わりにスキーマを提供します。

スキーマを構築するには、いくつかの異なるスキーマを最終的なスキーマにマージする必要があるため、メソッドunion (++)とdistinctメソッドを使用していますが、org.apache.spark.sql.AnalysisException: Duplicate column(s)例外が発生し続けます。

たとえば、次の構造に 2 つのスキーマがあるとします。

出力：

別のスキーマと完全に一致するスキーマ構造のみがによって除外されることを理解していますdistinct。ただし、結果を次のようにしたい:

すべてが 1 つのスキーマに「結合」されます。scala ドキュメントのすべてのメソッドをふるいにかけましたが、これを解決する正しいメソッドが見つからないようです。何か案は？

編集：

最終的な目標は、メソッドを使用して JSON 文字列の RDD にフィードしfinal_schema、sqlContext.read.schema読み取るreadことです。

scala apache-spark schema apache-spark-1.6

2016-12-27T22:45:32.537

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-1.6]

hadoop - pysparkでhdfsブロックサイズを変更するには?

scala - Spark StreamingでKafkaのレコードをforeachRDDにする方法は?

... 3 つ以上

scala - 重複なしでSparkスキーマを組み合わせる?

Reference