問題タブ [apache-spark-1.5]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
127 参照

apache-spark - Spark: Spark 1.5.1 で ml パッケージを使用して生成されたモデルを保存できますか?

spark の ml パッケージで作成したモデルを spark models(.paraquet) または pmml として保存したいと思います。model.save メソッドは、spark 1.6 以降のバージョンにのみ適用されます。spark 1.5.1 を使用してモデルを保存する方法はありますか?

0 投票する
2 に答える
268 参照

apache-spark - Python Spark Dataframes : 異なる列の条件に基づいて列を更新する方法

私は非常に単純なことをしたいのですが、Python/Spark(1.5)/Dataframe でそれを行う方法を理解できません (それは私にとってすべて新しいことです)。

元のデータセット:

新しいデータセット:

私はこのようなことをしたいと思います(疑似Pythonで?):

簡単にするために、mapCountry は次のようになります。

しかし、これにはエラーがあります:ValueError: Cannot convert column into bool:

0 投票する
1 に答える
920 参照

spark-streaming - Spark Kafka レシーバーがすべてのパーティションからデータを取得していない

5 つのパーティションを持つ Kafka トピックを作成しました。そして、次のようなcreateStreamレシーバーAPIを使用しています。しかし、どういうわけか、1 つのレシーバーだけが入力データを取得しています。残りの受信機は何も処理していません。助けていただけますか?

MultipleReceiver を使用した Spark UI

変更を追加した後、次の例外が発生します。

0 投票する
0 に答える
545 参照

java - Spark 2.0 GROUP BY NULLS

Spark 1.5 から Spark 2.0 へのいくつかのクエリの移行に取り組んでいます

クエリは次のとおりです。

まず第一に、Spark では、null チェックは group by で使用すると機能せずLENGTH()、値の呼び出しと null チェックが正しく機能することを知っています。

上記のクエリを実行すると、次のエラーが表示されます。

SQL Error: java.lang.IllegalArgumentException: Unrecognized type name: null\"

問題は何ですか?

0 投票する
1 に答える
145 参照

hadoop - Hadoop YARN での Spark - エグゼキュータがありません

Hadoop と Spark-1.5.2 を実行している 3 台の macOS マシンのクラスターがあります (Spark-2.0.0 でも同じ問題が存在します)。「yarn」を Spark マスター URL として使用すると、タスクが 3 台のマシンのうち 2 台にしか割り当てられないという奇妙な問題が発生します。

Hadoop ダッシュボード (マスターのポート 8088) に基づいて、3 つのノードすべてがクラスターの一部であることは明らかです。ただし、実行する Spark ジョブはいずれも、2 つのエグゼキューターしか使用しません。

たとえば、JavaWordCount の例を長時間実行した場合の「Executors」タブは次のとおりです。 ここに画像の説明を入力 「batservers」がマスターです。追加のスレーブ「batservers2」があるはずですが、そこにはありません。

これはなぜでしょうか?

YARN のリソース マネージャーとノード マネージャーに追加のメモリを与えるための規定を除いて、私の YARN または Spark (さらに言えば HDFS) の構成はどれも珍しいものではないことに注意してください。

0 投票する
1 に答える
1160 参照

apache-spark - 列の名前をドットで変更するには?

Spark1.5を使用しています。

名前にドットを含む列 (例: param.xy) に苦労しています。最初はそれらを選択するという問題がありましたが、`文字 (`param.xy`) を使用する必要があることを読みました。

列の名前を変更しようとすると、問題が発生します。私は同様のアプローチを使用していますが、うまくいかないようです:

だから私はチェックしたかった-これは本当にバグなのか、それとも何か間違ったことをしているのだろうか?

0 投票する
2 に答える
3143 参照

left-join - Spark SQL 1.5.2: 結合を除いて左

df_aデータフレームとが与えられた場合df_b、結合を除いて左と同じ結果を得るにはどうすればよいですか:

私はもう試した:

上記から例外が発生します。