問題タブ [apache-spark-2.0]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

451 問題

0 投票する

3 に答える

44662 参照

scala - Spark SQLで変数/パラメータを動的にバインドしますか?

Apache Spark SQLで変数をバインドする方法は? 例えば：

2014-11-05T10:44:25.077

0 投票する

1 に答える

14970 参照

java - カスタム Java オブジェクトのエンコーダを作成するには?

次のクラスを使用して、Spark Encoders から Bean を作成しています

そして、次のエラーが表示されます

Java で Spark のこのタイプのユースケースを実装するにはどうすればよいですか? 内部クラスを削除すると、これはうまくいきました。しかし、ユースケースには内部クラスが必要です。

java apache-spark apache-spark-2.0

2016-08-28T06:15:11.383

0 投票する

2 に答える

2847 参照

scala - Spark2のSparkSessionを使用してHiveテーブルに格納されたデータをクエリするには?

Spark2 から Hive テーブルに格納されているデータをクエリしようとしています。環境: 1.cloudera-quickstart-vm-5.7.0-0-vmware 2. Scala2.11.8 プラグインを使用した Eclipse 3. Spark2 および Maven の下

Spark のデフォルト設定は変更しませんでした。Spark または Hive で何かを構成する必要がありますか?

コード

取得エラー

どんな提案でも大歓迎です

ありがとう
ロビン

scala maven hive apache-spark-sql apache-spark-2.0

2016-08-29T08:09:31.447

0 投票する

1 に答える

1246 参照

apache-spark - Spark 2.0 `java.lang.ClassCastException: java.lang.Integer を java.sql.Date にキャストできません` エラー

Hive データウェアハウスを維持しており、sparkSQL を使用して Hive データベースに対してクエリを実行し、レポートを生成しています。AWS EMR 環境で Spark 1.6 を使用しており、正常に動作しています。環境を Spark 2.0 にアップグレードしたかったのですが、日付フィールドで非常に奇妙なキャストエラーが発生しました。DATE 型の列を含む既存のテーブルはjava.lang.ClassCastException: java.lang.Integer cannot be cast to java.sql.Date、spark 2.0 でクエリを実行するとエラーをスローします。

以下は、Hive データベースにあるテーブルの簡単な例です。

CREATE TABLE IF NOT EXISTS test.test_table ( column_1 STRING, column_2 STRING, ) PARTITIONED BY (column_3 DATE) STORED AS PARQUETFILE ;

クエリSELECT * FROM test.test_table limit 5は、spark 2.0 では上記のエラーで失敗しますが、spark 1.6 では正常に動作します。

これらのテーブルには、構文を使用して spark 1.6 HiveContext が取り込まれINSERT INTOます。

誰もこの問題を見たことがありますか？spark 2.0 を parquet 形式の Date フィールドで動作させるために設定する必要がある構成値はありますか?

apache-spark hive apache-spark-sql apache-spark-2.0

2016-09-01T00:18:47.433

0 投票する

0 に答える

391 参照

hadoop - YARN は Spark 2.0 タスクを横取りしません

YARN によって管理されているクラスターがあります。とで公平なスケジューリングを有効にyarn-site.xmlしましたfair-scheduler.xml(詳細については以下を参照してください)。

公平なスケジューリングに関する Cloudera のブログの記事によると、いくつかのタスクをq1キューにスケジュールし (オンザフライで作成し、デフォルト値などでweigth=1)、他のいくつかのタスクをtest_queue( weight=2) にスケジュールすると、からのタスクはq1(1 秒後に) プリエンプトされると予想されます。test_queueのFair Shareのバランスを取りますが、そうはなりません。

代わりに、33% のフェアシェアq1を持つクラスターリソースの 70% を使用し、67% のフェアシェアを持つリソースの 5% を取得します。test_queue

何か見逃しましたか？

以下は私のYARN構成です：

と

スパークの例から Pi 計算ジョブを送信します。

hadoop hadoop-yarn apache-spark-2.0

2016-09-01T14:58:44.190

0 投票する

0 に答える

100 参照

java - spark2 のキューに入れられたストリーム

spark 1.6.1 では、このメソッドに感謝します JAVA で RDD を DStream に変換する方法は? 次のようなテキストファイルからキューストリームを作成できました。

このようにストリームを取得しましたが、バッチごとに1つのファイルしかありません。ファイルには JSON データが含まれています。寄木細工のファイルを使用せずに SparkSession と Datasets を使用して、spark2 でもキューに入れられたストリーム (上記の方法のようなもの) を作成する方法はありますか?

sc()Javaスパークコンテキストです
jsc()Javaストリーミングコンテキストです

java apache-spark-2.0

2016-09-07T05:29:14.060

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-2.0]

scala - Spark SQLで変数/パラメータを動的にバインドしますか?

java - カスタム Java オブジェクトのエンコーダを作成するには?

scala - Spark2のSparkSessionを使用してHiveテーブルに格納されたデータをクエリするには?

apache-spark - Spark 2.0 `java.lang.ClassCastException: java.lang.Integer を java.sql.Date にキャストできません` エラー

hadoop - YARN は Spark 2.0 タスクを横取りしません

java - spark2 のキューに入れられたストリーム

Reference