問題タブ [apache-spark-2.0]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

451 問題

0 投票する

1 に答える

672 参照

cassandra-2.0 - Cassandra select クエリの複数のパラメーター

カサンドラ 2.28、java-connector3、sparks2.0 を使用。

複数の選択パラメーターを使用して単純なクエリを作成しようとしています-構文を正しく取得できません。 単一のパラメーターが機能します

複数のパラメーターを実行するにはどうすればよいですか、複数の方法を試してみるとすべて失敗します:

ビルドステートメントを試してみましたが、エラーが発生しました - 「 eq 」が好きではありません:

基本的な 101 クエリのように見えますが、適切なサンプルコードが見つかりません。

2016-12-14T19:19:01.997

0 投票する

0 に答える

3134 参照

apache-spark-2.0 - アパッチスパーク| java.lang.AssertionError: アサーションに失敗しました

私は Apache Spark 2.0.2 を使用しており、Spark Streaming モジュールでデカルト積を使用しているときに次の問題に直面しています。

私は圧縮コーデックをスナッピーとして使用していますが、デフォルトのもの（LZ4）を使用しているときに同じ問題に直面しており、シリアライゼーションにもkryoを使用しています。

また、エグゼキュータセクションで十分なメモリが利用可能であることがわかります。また、この例外は後続のバッチの実行中に発生します。最初のバッチは正常に実行されます。

以下のスタックトレースを見つけてください:-

apache-spark-2.0

2016-12-19T11:59:34.470

0 投票する

3 に答える

4768 参照

scala - Spark 2.0 ALS Recommendation ユーザーへの推奨方法

リンクhttp://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.htmlにあるガイドに従いました

しかし、spark Mlib RDD アプローチを使用しているため、これは時代遅れです。New Spark 2.0 には DataFrame アプローチがあります。今私の問題は、更新されたコードを入手したことです

ここに問題があります. 古いコードでは得られたモデルは MatrixFactorizationModel でした. 今は独自のモデルを持っています(ALSModel)

MatrixFactorizationModel では、直接行うことができます

これにより、ユーザーが好きになる可能性が最も高い製品のリストが得られます。

しかし、現在、.predict メソッドはありません。ユーザーIDを指定して製品のリストを推奨する方法

scala apache-spark machine-learning apache-spark-2.0

2016-12-20T14:47:39.660

0 投票する

1 に答える

1272 参照

pyspark-sql - pyspark2.0.0 の空のデータフレームで createOrReplaceTempView が機能しない

pyspark データフレーム (2.0.0) で SQL ビューを定義しようとしていますが、「テーブルまたはビューが見つかりません」などのエラーが発生します。私がやっていること： 1.空のデータフレームを作成します 2.別の場所から一時データフレームにデータをロードします 3.一時データフレームをメインデータフレーム（空のもの）に追加します 4.データフレームにSQLビューを定義します（これは以前は空です）。

pyspark-sql apache-spark-2.0

2016-12-21T06:33:35.300

0 投票する

1 に答える

2665 参照

apache-spark - DataFrame を Hive テーブルに永続化するには?

Cloudera QuickStart VM で CentOS を使用しています。他の質問How to save DataFrame directly to Hive?に従って、sbt マネージド Spark アプリケーションを作成しました。.

build.sbt

次のように DataFrame を Hive テーブルとして使用したいと思います。

エラーが発生していることに気付きました：

ルートスクラッチディレクトリ: /tmp/hive は書き込み可能である必要があります。現在のパーミッションは: rwx------

他の質問に従い、HDFS に設定chmod 777しました。/tmp/hive

Spark がローカルファイルシステム /tmp/hive を使用していることを知りました。

ローカルファイルシステムに対して chmod を実行しました。

今、私はエラーが発生しています

org.apache.hadoop.hive.ql.metadata.HiveException: MetaException (message:file:/user/hive/warehouse/productstore はディレクトリではないか、ディレクトリを作成できません)

HDFS ハイブウェアハウスに DataFrame を保存したいと思います。

apache-spark hive hdfs apache-spark-2.0

2016-12-25T19:04:55.073

0 投票する

2 に答える

8770 参照

apache-spark - pysparkで密ベクトルのRDDをDataFrameに変換するには?

私はDenseVector RDDこのようなものを持っています

これをに変換したいDataframe。私はこのようにしてみました

このようなエラーが発生します

古いソリューション

編集 1 - 再現可能なコード

apache-spark pyspark apache-spark-mllib apache-spark-ml apache-spark-2.0

2016-12-26T09:05:26.947

0 投票する

1 に答える

3982 参照

apache-spark - スパークデータフレームのreducebykeyとaggregatebykey

私はspark 2.0を使って寄木細工のファイルからデータを読んでいます。

合計残高値を取得するには、これがデータフレームでアクション first() を使用して取得する最良の方法ですか?

Spark 2.0 では groupby key を使用しても問題ありませんか、rdd の groupbykey のような同じパフォーマンスの問題がありますか?ネットワーク経由でデータ全体をシャッフルしてから集計を実行する必要がありますか、または以前のバージョンの reducebykey のように集計がローカルで実行されますか?スパーク

ありがとう

apache-spark apache-spark-sql apache-spark-2.0

2017-01-03T06:58:01.913

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-2.0]

Reference