問題タブ [apache-spark-2.0]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
44662 参照

scala - Spark SQLで変数/パラメータを動的にバインドしますか?

Apache Spark SQLで変数をバインドする方法は? 例えば:

0 投票する
1 に答える
14970 参照

java - カスタム Java オブジェクトのエンコーダを作成するには?

次のクラスを使用して、Spark Encoders から Bean を作成しています

そして、次のエラーが表示されます

Java で Spark のこのタイプのユースケースを実装するにはどうすればよいですか? 内部クラスを削除すると、これはうまくいきました。しかし、ユースケースには内部クラスが必要です。

0 投票する
2 に答える
2847 参照

scala - Spark2のSparkSessionを使用してHiveテーブルに格納されたデータをクエリするには?

Spark2 から Hive テーブルに格納されているデータをクエリしようとしています。環境: 1.cloudera-quickstart-vm-5.7.0-0-vmware 2. Scala2.11.8 プラグインを使用した Eclipse 3. Spark2 および Maven の下

Spark のデフォルト設定は変更しませんでした。Spark または Hive で何かを構成する必要がありますか?

コード

取得エラー

どんな提案でも大歓迎です

ありがとう
ロビン

0 投票する
1 に答える
1246 参照

apache-spark - Spark 2.0 `java.lang.ClassCastException: java.lang.Integer を java.sql.Date にキャストできません` エラー

Hive データ ウェアハウスを維持しており、sparkSQL を使用して Hive データベースに対してクエリを実行し、レポートを生成しています。AWS EMR 環境で Spark 1.6 を使用しており、正常に動作しています。環境を Spark 2.0 にアップグレードしたかったのですが、日付フィールドで非常に奇妙なキャスト エラーが発生しました。DATE 型の列を含む既存のテーブルはjava.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date、spark 2.0 でクエリを実行するとエラーをスローします。

以下は、Hive データベースにあるテーブルの簡単な例です。

CREATE TABLE IF NOT EXISTS test.test_table ( column_1 STRING, column_2 STRING, ) PARTITIONED BY (column_3 DATE) STORED AS PARQUETFILE ;

クエリSELECT * FROM test.test_table limit 5は、spark 2.0 では上記のエラーで失敗しますが、spark 1.6 では正常に動作します。

これらのテーブルには、構文を使用して spark 1.6 HiveContext が取り込まれINSERT INTOます。

誰もこの問題を見たことがありますか?spark 2.0 を parquet 形式の Date フィールドで動作させるために設定する必要がある構成値はありますか?

0 投票する
0 に答える
391 参照

hadoop - YARN は Spark 2.0 タスクを横取りしません

YARN によって管理されているクラスターがあります。と で公平なスケジューリングを有効にyarn-site.xmlしましたfair-scheduler.xml(詳細については以下を参照してください)。

公平なスケジューリングに関する Cloudera のブログの記事によると、いくつかのタスクをq1キューにスケジュールし (オンザフライで作成し、デフォルト値などでweigth=1)、他のいくつかのタスクをtest_queue( weight=2) にスケジュールすると、からのタスクはq1(1 秒後に) プリエンプトされると予想されます。test_queueFair Shareのバランスを取りますが、そうはなりません。

代わりに、33% のフェア シェアq1を持つクラスター リソースの 70% を使用し、67% のフェア シェアを持つリソースの 5% を取得します。test_queue

何か見逃しましたか?

ここに画像の説明を入力

以下は私のYARN構成です:

スパークの例から Pi 計算ジョブを送信します。

0 投票する
0 に答える
100 参照

java - spark2 のキューに入れられたストリーム

spark 1.6.1 では、このメソッドに感謝 します JAVA で RDD を DStream に変換する方法は? 次のようなテキスト ファイルからキュー ストリームを作成できました。

このようにストリームを取得しましたが、バッチごとに1つのファイルしかありません。ファイルには JSON データが含まれています。寄木細工のファイルを使用せずに SparkSession と Datasets を使用して、spark2 でもキューに入れられたストリーム (上記の方法のようなもの) を作成する方法はありますか?

  • sc()Javaスパークコンテキストです
  • jsc()Javaストリーミングコンテキストです