問題タブ [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra-2.0 - Cassandra select クエリの複数のパラメーター
カサンドラ 2.28、java-connector3、sparks2.0 を使用。
複数の選択パラメーターを使用して単純なクエリを作成しようとしています-構文を正しく取得できません。 単一のパラメーターが機能します
複数のパラメーターを実行するにはどうすればよいですか、複数の方法を試してみるとすべて失敗します:
ビルドステートメントを試してみましたが、エラーが発生しました - 「 eq 」が好きではありません:
基本的な 101 クエリのように見えますが、適切なサンプル コードが見つかりません。
apache-spark-2.0 - アパッチスパーク| java.lang.AssertionError: アサーションに失敗しました
私は Apache Spark 2.0.2 を使用しており、Spark Streaming モジュールでデカルト積を使用しているときに次の問題に直面しています。
私は圧縮コーデックをスナッピーとして使用していますが、デフォルトのもの(LZ4)を使用しているときに同じ問題に直面しており、シリアライゼーションにもkryoを使用しています。
また、エグゼキュータ セクションで十分なメモリが利用可能であることがわかります。また、この例外は後続のバッチの実行中に発生します。最初のバッチは正常に実行されます。
以下のスタックトレースを見つけてください:-
scala - Spark 2.0 ALS Recommendation ユーザーへの推奨方法
リンクhttp://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.htmlにあるガイドに従いました
しかし、spark Mlib RDD アプローチを使用しているため、これは時代遅れです。New Spark 2.0 には DataFrame アプローチがあります。今私の問題は、更新されたコードを入手したことです
ここに問題があります. 古いコードでは得られたモデルは MatrixFactorizationModel でした. 今は独自のモデルを持っています(ALSModel)
MatrixFactorizationModel では、直接行うことができます
これにより、ユーザーが好きになる可能性が最も高い製品のリストが得られます。
しかし、現在、.predict メソッドはありません。ユーザーIDを指定して製品のリストを推奨する方法
pyspark-sql - pyspark2.0.0 の空のデータフレームで createOrReplaceTempView が機能しない
pyspark データフレーム (2.0.0) で SQL ビューを定義しようとしていますが、「テーブルまたはビューが見つかりません」などのエラーが発生します。私がやっていること: 1.空のデータフレームを作成します 2.別の場所から一時データフレームにデータをロードします 3.一時データフレームをメインデータフレーム(空のもの)に追加します 4.データフレームにSQLビューを定義します(これは以前は空です)。
apache-spark - DataFrame を Hive テーブルに永続化するには?
Cloudera QuickStart VM で CentOS を使用しています。他の質問How to save DataFrame directly to Hive?に従って、sbt マネージド Spark アプリケーションを作成しました。.
build.sbt
次のように DataFrame を Hive テーブルとして使用したいと思います。
エラーが発生していることに気付きました:
ルート スクラッチ ディレクトリ: /tmp/hive は書き込み可能である必要があります。現在のパーミッションは: rwx------
他の質問に従い、HDFS に設定chmod 777
しました。/tmp/hive
Spark がローカル ファイルシステム /tmp/hive を使用していることを知りました。
ローカルファイルシステムに対して chmod を実行しました。
今、私はエラーが発生しています
org.apache.hadoop.hive.ql.metadata.HiveException: MetaException (message:file:/user/hive/warehouse/productstore はディレクトリではないか、ディレクトリを作成できません)
HDFS ハイブ ウェアハウスに DataFrame を保存したいと思います。
apache-spark - pysparkで密ベクトルのRDDをDataFrameに変換するには?
私はDenseVector
RDD
このようなものを持っています
これを に変換したいDataframe
。私はこのようにしてみました
このようなエラーが発生します
古いソリューション
編集 1 - 再現可能なコード
apache-spark - スパークデータフレームのreducebykeyとaggregatebykey
私はspark 2.0を使って寄木細工のファイルからデータを読んでいます。
合計残高値を取得するには、これがデータフレームでアクション first() を使用して取得する最良の方法ですか?
Spark 2.0 では groupby key を使用しても問題ありませんか、rdd の groupbykey のような同じパフォーマンスの問題がありますか?ネットワーク経由でデータ全体をシャッフルしてから集計を実行する必要がありますか、または以前のバージョンの reducebykey のように集計がローカルで実行されますか?スパーク
ありがとう