問題タブ [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Spark SQLで変数/パラメータを動的にバインドしますか?
Apache Spark SQLで変数をバインドする方法は? 例えば:
java - カスタム Java オブジェクトのエンコーダを作成するには?
次のクラスを使用して、Spark Encoders から Bean を作成しています
そして、次のエラーが表示されます
Java で Spark のこのタイプのユースケースを実装するにはどうすればよいですか? 内部クラスを削除すると、これはうまくいきました。しかし、ユースケースには内部クラスが必要です。
scala - Spark2のSparkSessionを使用してHiveテーブルに格納されたデータをクエリするには?
Spark2 から Hive テーブルに格納されているデータをクエリしようとしています。環境: 1.cloudera-quickstart-vm-5.7.0-0-vmware 2. Scala2.11.8 プラグインを使用した Eclipse 3. Spark2 および Maven の下
Spark のデフォルト設定は変更しませんでした。Spark または Hive で何かを構成する必要がありますか?
コード
取得エラー
どんな提案でも大歓迎です
ありがとう
ロビン
apache-spark - Spark 2.0 `java.lang.ClassCastException: java.lang.Integer を java.sql.Date にキャストできません` エラー
Hive データ ウェアハウスを維持しており、sparkSQL を使用して Hive データベースに対してクエリを実行し、レポートを生成しています。AWS EMR 環境で Spark 1.6 を使用しており、正常に動作しています。環境を Spark 2.0 にアップグレードしたかったのですが、日付フィールドで非常に奇妙なキャスト エラーが発生しました。DATE 型の列を含む既存のテーブルはjava.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date
、spark 2.0 でクエリを実行するとエラーをスローします。
以下は、Hive データベースにあるテーブルの簡単な例です。
CREATE TABLE IF NOT EXISTS test.test_table
(
column_1 STRING,
column_2 STRING,
)
PARTITIONED BY (column_3 DATE)
STORED AS PARQUETFILE ;
クエリSELECT * FROM test.test_table limit 5
は、spark 2.0 では上記のエラーで失敗しますが、spark 1.6 では正常に動作します。
これらのテーブルには、構文を使用して spark 1.6 HiveContext が取り込まれINSERT INTO
ます。
誰もこの問題を見たことがありますか?spark 2.0 を parquet 形式の Date フィールドで動作させるために設定する必要がある構成値はありますか?
hadoop - YARN は Spark 2.0 タスクを横取りしません
YARN によって管理されているクラスターがあります。と で公平なスケジューリングを有効にyarn-site.xml
しましたfair-scheduler.xml
(詳細については以下を参照してください)。
公平なスケジューリングに関する Cloudera のブログの記事によると、いくつかのタスクをq1
キューにスケジュールし (オンザフライで作成し、デフォルト値などでweigth=1
)、他のいくつかのタスクをtest_queue
( weight=2
) にスケジュールすると、からのタスクはq1
(1 秒後に) プリエンプトされると予想されます。test_queue
のFair Shareのバランスを取りますが、そうはなりません。
代わりに、33% のフェア シェアq1
を持つクラスター リソースの 70% を使用し、67% のフェア シェアを持つリソースの 5% を取得します。test_queue
何か見逃しましたか?
以下は私のYARN構成です:
と
スパークの例から Pi 計算ジョブを送信します。
java - spark2 のキューに入れられたストリーム
spark 1.6.1 では、このメソッドに感謝 します JAVA で RDD を DStream に変換する方法は? 次のようなテキスト ファイルからキュー ストリームを作成できました。
このようにストリームを取得しましたが、バッチごとに1つのファイルしかありません。ファイルには JSON データが含まれています。寄木細工のファイルを使用せずに SparkSession と Datasets を使用して、spark2 でもキューに入れられたストリーム (上記の方法のようなもの) を作成する方法はありますか?
sc()
Javaスパークコンテキストですjsc()
Javaストリーミングコンテキストです