問題タブ [apache-spark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
join - Apache Spark SQL で更新を実行する方法
JavaSchemaRDD
いくつかの条件を設定して、いくつかの新しい値でa を更新する必要がありWHERE
ます。
これは、Spark SQL に変換したい SQL クエリです。
apache-spark - Spark RDD を 2 つのテーブルに分割し、それらに対して結合を実行できますか?
ファクト テーブルとそのディメンション テーブルをまとめて含む大きな TSV データ ファイルがあります。Spark を使用して、その単一のファイルを異なる「テーブル」に分割/パーティション化し、結合を実行してそれらを正規化することが可能かどうか疑問に思っていますか?
私を正しい方向に向ける助けは素晴らしいでしょう。
json - SPARK (SQL) を使用して不要な JSON フィールドを削除する
私は現在、Spark といくつかのビッグデータをいじっている新しい Spark ユーザーです。Spark SQL またはより正式には SchemaRDD に関連する質問があります。いくつかの天気予報に関するデータを含む JSON ファイルを読んでいますが、私が持っているすべてのフィールドにはあまり興味がありません...各レコードに対して返される 50 以上のフィールドのうち 10 フィールドだけが必要です。スパークから削除したいいくつかのフィールドの名前を指定するために使用できる(フィルターに似た)方法はありますか。
ちょっとした説明の例です。「名前」、「年齢」、「性別」の 3 つのフィールドを持つスキーマ「人」があり、「年齢」フィールドには興味がなく、削除したいと考えています。スパークを使用してそれを行う方法を教えてください。? ありがとう
java - datetime を Spark の Parquet に保存する
コンパイル時に不明な形式のデータを含む Parquet ファイルを作成したいと考えています。後でスキーマをテキストとして取得していますが、一部の列に日付と時刻が含まれていることがわかっています。Spark と Java を使用してこれを行いたいと考えています。そこで、http://spark.apache.org/docs/1.2.1/sql-programming-guide.html#programmatically-specifying-the-schemaに従い、適切な型のスキーマを作成しました。SparkDataType.TimestampType
とDataType.DateType
日付のような列を使用しようとしました。しかし、どちらも機能していません。ファイルを保存しようとするとJavaSchemaRDD.saveAsParquetFile
、エラーUnsupported datatype
+ 日付に試したタイプが表示されます。これで試してみたemptyRDD
ので、データ変換に問題はありません。
調べた後: http://parquet.incubator.apache.org/documentation/latest/と https://github.com/Parquet/parquet-format/blob/master/LogicalTypes.mdを変換する必要があると思いますdata を integer/long 型に変換し、それらが Date を表しているという事実を通知します。もしそうなら、どうすればSparkでこれを行うことができますか? それとも、何か他のことをする必要がありますか?
apache-spark - Cloudera Hadoop ディストリビューションのいずれかが Apache Spark SQL をサポートしていますか
私はApache Sparkを初めて使用します。現在のところ、CDH のどのバージョンも Apache Spark SQL をサポートしていないと聞きました。hortonworks ディストリビューションでも同様です。本当..?
もう 1 つは、私の PC に CDH 5.0.0 がインストールされていることです。私の CDH はどのバージョンの Apache Spark をサポートしていますか?
また、私の CDH ディストリビューションで私の Spark プログラムを実行する手順を教えてください。Apache Spark 1.2 バージョンを使用していくつかの基本的なプログラムを作成しましたが、それらのプログラムを CDH 環境で実行できません。spark-submit コマンドを使用して Spark プログラムを実行しているときに、非常に基本的な問題に直面しています。
spark-submit: コマンドが見つかりません
Spark プログラムを実行する前に、何か構成する必要がありますか?
前もって感謝します
elasticsearch - Spark SQL を介して Tableau と Elastic Search を接続する
Hive SQL を介して Tableau を Elastic Search に接続する方法について説明している投稿を見つけました。ハイブに詳しくないので、Spark SQL 経由で Elastic Search に接続する方法があるかどうか疑問に思っていました。
ありがとう。
scala - スパークシェルの22フィールドの制限を克服するために、Productインターフェースでscalaクラスを拡張しているときにエラーが発生しました
29 個のフィールドをサポートするクラス スキーマを作成する必要があります。ケースクラスの22フィールドの制限により、次のようにクラス「sdp_d」をProductインターフェースで拡張しようとしました:
}
これにより、クラス「sdp_d」が定義されました。ただし、この事前定義されたスキーマを使用して csv データをロードし、テーブルとして登録しようとすると、エラーが発生します。
私はスパークシェルで働いています。Spark バージョン 1.1.0 および scala バージョン 2.10.4。
エラー : not found: 値 sdp_d の理由がわかりません。
Product インターフェイスを拡張する独自のクラスを作成する場合、registerAsTable はどのようにすればよいですか??
エラーの解決にご協力ください。
apache-spark - Spark を使用してカスタム結合 (主キーを使用しない) は可能ですか?
主キーを介してペア RDD に参加することはできますが、値オブジェクトの特定の属性に基づいて参加することは可能ですか?
たとえば、リスト、または 2 つのオブジェクトのペア リストがあるとします。
TV_station_information station_name が View_information station_name と一致するこれら 2 つのリストに参加したいと思います。
View_information station_name のキーを作成できません。各ステーションには大量のタイムブロックがあるためです。また、Spark を介して、View_information テーブルを他のテーブルと結合しています。
どんな助けでも素晴らしいでしょう。