問題タブ [apache-spark-2.0]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
672 参照

cassandra-2.0 - Cassandra select クエリの複数のパラメーター

カサンドラ 2.28、java-connector3、sparks2.0 を使用。

複数の選択パラメーターを使用して単純なクエリを作成しようとしています-構文を正しく取得できません。 単一のパラメーターが機能します

複数のパラメーターを実行するにはどうすればよいですか、複数の方法を試してみるとすべて失敗します:

ビルドステートメントを試してみましたが、エラーが発生しました - 「 eq 」が好きではありません:

基本的な 101 クエリのように見えますが、適切なサンプル コードが見つかりません。

0 投票する
0 に答える
3134 参照

apache-spark-2.0 - アパッチスパーク| java.lang.AssertionError: アサーションに失敗しました

私は Apache Spark 2.0.2 を使用しており、Spark Streaming モジュールでデカルト積を使用しているときに次の問題に直面しています。

私は圧縮コーデックをスナッピーとして使用していますが、デフォルトのもの(LZ4)を使用しているときに同じ問題に直面しており、シリアライゼーションにもkryoを使用しています。

また、エグゼキュータ セクションで十分なメモリが利用可能であることがわかります。また、この例外は後続のバッチの実行中に発生します。最初のバッチは正常に実行されます。

以下のスタックトレースを見つけてください:-

0 投票する
3 に答える
4768 参照

scala - Spark 2.0 ALS Recommendation ユーザーへの推奨方法

リンクhttp://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.htmlにあるガイドに従いました

しかし、spark Mlib RDD アプローチを使用しているため、これは時代遅れです。New Spark 2.0 には DataFrame アプローチがあります。今私の問題は、更新されたコードを入手したことです

ここに問題があります. 古いコードでは得られたモデルは MatrixFactorizationModel でした. 今は独自のモデルを持っています(ALSModel)

MatrixFactorizationModel では、直接行うことができます

これにより、ユーザーが好きになる可能性が最も高い製品のリストが得られます。

しかし、現在、.predict メソッドはありません。ユーザーIDを指定して製品のリストを推奨する方法

0 投票する
1 に答える
1272 参照

pyspark-sql - pyspark2.0.0 の空のデータフレームで createOrReplaceTempView が機能しない

pyspark データフレーム (2.0.0) で SQL ビューを定義しようとしていますが、「テーブルまたはビューが見つかりません」などのエラーが発生します。私がやっていること: 1.空のデータフレームを作成します 2.別の場所から一時データフレームにデータをロードします 3.一時データフレームをメインデータフレーム(空のもの)に追加します 4.データフレームにSQLビューを定義します(これは以前は空です)。

0 投票する
1 に答える
2665 参照

apache-spark - DataFrame を Hive テーブルに永続化するには?

Cloudera QuickStart VM で CentOS を使用しています。他の質問How to save DataFrame directly to Hive?に従って、sbt マネージド Spark アプリケーションを作成しました。.

build.sbt

次のように DataFrame を Hive テーブルとして使用したいと思います。

エラーが発生していることに気付きました:

ルート スクラッチ ディレクトリ: /tmp/hive は書き込み可能である必要があります。現在のパーミッションは: rwx------

他の質問に従い、HDFS に設定chmod 777しました。/tmp/hive

Spark がローカル ファイルシステム /tmp/hive を使用していることを知りました。

ローカルファイルシステムに対して chmod を実行しました。

今、私はエラーが発生しています

org.apache.hadoop.hive.ql.metadata.HiveException: MetaException (message:file:/user/hive/warehouse/productstore はディレクトリではないか、ディレクトリを作成できません)

HDFS ハイブ ウェアハウスに DataFrame を保存したいと思います。

0 投票する
2 に答える
8770 参照

apache-spark - pysparkで密ベクトルのRDDをDataFrameに変換するには?

私はDenseVector RDDこのようなものを持っています

これを に変換したいDataframe。私はこのようにしてみました

このようなエラーが発生します

古いソリューション

編集 1 - 再現可能なコード

0 投票する
1 に答える
3982 参照

apache-spark - スパークデータフレームのreducebykeyとaggregatebykey

私はspark 2.0を使って寄木細工のファイルからデータを読んでいます。

合計残高値を取得するには、これがデータフレームでアクション first() を使用して取得する最良の方法ですか?

Spark 2.0 では groupby key を使用しても問題ありませんか、rdd の groupbykey のような同じパフォーマンスの問題がありますか?ネットワーク経由でデータ全体をシャッフルしてから集計を実行する必要がありますか、または以前のバージョンの reducebykey のように集計がローカルで実行されますか?スパーク

ありがとう