問題タブ [apache-spark-1.5]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

45 問題

0 投票する

0 に答える

127 参照

apache-spark - Spark: Spark 1.5.1 で ml パッケージを使用して生成されたモデルを保存できますか?

spark の ml パッケージで作成したモデルを spark models(.paraquet) または pmml として保存したいと思います。model.save メソッドは、spark 1.6 以降のバージョンにのみ適用されます。spark 1.5.1 を使用してモデルを保存する方法はありますか?

2016-08-30T08:29:17.620

0 投票する

2 に答える

268 参照

apache-spark - Python Spark Dataframes : 異なる列の条件に基づいて列を更新する方法

私は非常に単純なことをしたいのですが、Python/Spark(1.5)/Dataframe でそれを行う方法を理解できません (それは私にとってすべて新しいことです)。

元のデータセット:

新しいデータセット:

私はこのようなことをしたいと思います(疑似Pythonで?):

簡単にするために、mapCountry は次のようになります。

しかし、これにはエラーがあります：ValueError: Cannot convert column into bool:

apache-spark spark-dataframe apache-spark-1.5

2016-09-06T03:22:54.347

0 投票する

1 に答える

920 参照

spark-streaming - Spark Kafka レシーバーがすべてのパーティションからデータを取得していない

5 つのパーティションを持つ Kafka トピックを作成しました。そして、次のようなcreateStreamレシーバーAPIを使用しています。しかし、どういうわけか、1 つのレシーバーだけが入力データを取得しています。残りの受信機は何も処理していません。助けていただけますか？

変更を追加した後、次の例外が発生します。

spark-streaming apache-spark-1.5

2016-09-14T19:42:21.753

0 投票する

0 に答える

545 参照

java - Spark 2.0 GROUP BY NULLS

Spark 1.5 から Spark 2.0 へのいくつかのクエリの移行に取り組んでいます

クエリは次のとおりです。

まず第一に、Spark では、null チェックは group by で使用すると機能せずLENGTH()、値の呼び出しと null チェックが正しく機能することを知っています。

上記のクエリを実行すると、次のエラーが表示されます。

SQL Error: java.lang.IllegalArgumentException: Unrecognized type name: null\"

問題は何ですか？

java apache-spark apache-spark-sql apache-spark-1.5 apache-spark-2.0

2016-10-04T23:11:34.340

0 投票する

1 に答える

145 参照

hadoop - Hadoop YARN での Spark - エグゼキュータがありません

Hadoop と Spark-1.5.2 を実行している 3 台の macOS マシンのクラスターがあります (Spark-2.0.0 でも同じ問題が存在します)。「yarn」を Spark マスター URL として使用すると、タスクが 3 台のマシンのうち 2 台にしか割り当てられないという奇妙な問題が発生します。

Hadoop ダッシュボード (マスターのポート 8088) に基づいて、3 つのノードすべてがクラスターの一部であることは明らかです。ただし、実行する Spark ジョブはいずれも、2 つのエグゼキューターしか使用しません。

たとえば、JavaWordCount の例を長時間実行した場合の「Executors」タブは次のとおりです。「batservers」がマスターです。追加のスレーブ「batservers2」があるはずですが、そこにはありません。

これはなぜでしょうか？

YARN のリソースマネージャーとノードマネージャーに追加のメモリを与えるための規定を除いて、私の YARN または Spark (さらに言えば HDFS) の構成はどれも珍しいものではないことに注意してください。

hadoop apache-spark hadoop-yarn apache-spark-1.5

2016-10-10T22:37:48.260

0 投票する

1 に答える

1160 参照

apache-spark - 列の名前をドットで変更するには?

Spark1.5を使用しています。

名前にドットを含む列 (例: param.xy) に苦労しています。最初はそれらを選択するという問題がありましたが、`文字 (`param.xy`) を使用する必要があることを読みました。

列の名前を変更しようとすると、問題が発生します。私は同様のアプローチを使用していますが、うまくいかないようです：

だから私はチェックしたかった-これは本当にバグなのか、それとも何か間違ったことをしているのだろうか?

apache-spark pyspark apache-spark-1.5

2016-12-26T09:09:25.063

0 投票する

2 に答える

3143 参照

left-join - Spark SQL 1.5.2: 結合を除いて左

df_aデータフレームとが与えられた場合df_b、結合を除いて左と同じ結果を得るにはどうすればよいですか:

私はもう試した：

上記から例外が発生します。

left-join apache-spark-sql apache-spark-1.5

2017-04-10T23:10:52.663

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-1.5]

Reference