“apache-spark-sql”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

4751 参照

join - Apache Spark SQL で更新を実行する方法

JavaSchemaRDDいくつかの条件を設定して、いくつかの新しい値でa を更新する必要がありWHEREます。

これは、Spark SQL に変換したい SQL クエリです。

2015-02-19T06:26:24.563

0 投票する

1 に答える

903 参照

apache-spark - Spark RDD を 2 つのテーブルに分割し、それらに対して結合を実行できますか?

ファクトテーブルとそのディメンションテーブルをまとめて含む大きな TSV データファイルがあります。Spark を使用して、その単一のファイルを異なる「テーブル」に分割/パーティション化し、結合を実行してそれらを正規化することが可能かどうか疑問に思っていますか?

私を正しい方向に向ける助けは素晴らしいでしょう。

apache-spark apache-spark-sql

2015-02-20T00:09:25.233

0 投票する

2 に答える

2179 参照

json - SPARK (SQL) を使用して不要な JSON フィールドを削除する

私は現在、Spark といくつかのビッグデータをいじっている新しい Spark ユーザーです。Spark SQL またはより正式には SchemaRDD に関連する質問があります。いくつかの天気予報に関するデータを含む JSON ファイルを読んでいますが、私が持っているすべてのフィールドにはあまり興味がありません...各レコードに対して返される 50 以上のフィールドのうち 10 フィールドだけが必要です。スパークから削除したいいくつかのフィールドの名前を指定するために使用できる（フィルターに似た）方法はありますか。

ちょっとした説明の例です。「名前」、「年齢」、「性別」の 3 つのフィールドを持つスキーマ「人」があり、「年齢」フィールドには興味がなく、削除したいと考えています。スパークを使用してそれを行う方法を教えてください。? ありがとう

json apache-spark apache-spark-sql

2015-02-20T13:50:06.560

0 投票する

1 に答える

8192 参照

java - datetime を Spark の Parquet に保存する

コンパイル時に不明な形式のデータを含む Parquet ファイルを作成したいと考えています。後でスキーマをテキストとして取得していますが、一部の列に日付と時刻が含まれていることがわかっています。Spark と Java を使用してこれを行いたいと考えています。そこで、http://spark.apache.org/docs/1.2.1/sql-programming-guide.html#programmatically-specifying-the-schemaに従い、適切な型のスキーマを作成しました。SparkDataType.TimestampTypeとDataType.DateType日付のような列を使用しようとしました。しかし、どちらも機能していません。ファイルを保存しようとするとJavaSchemaRDD.saveAsParquetFile、エラーUnsupported datatype+ 日付に試したタイプが表示されます。これで試してみたemptyRDDので、データ変換に問題はありません。

調べた後: http://parquet.incubator.apache.org/documentation/latest/と https://github.com/Parquet/parquet-format/blob/master/LogicalTypes.mdを変換する必要があると思いますdata を integer/long 型に変換し、それらが Date を表しているという事実を通知します。もしそうなら、どうすればSparkでこれを行うことができますか? それとも、何か他のことをする必要がありますか？

java apache-spark apache-spark-sql parquet

2015-02-20T18:09:32.663

0 投票する

1 に答える

378 参照

apache-spark - Cloudera Hadoop ディストリビューションのいずれかが Apache Spark SQL をサポートしていますか

私はApache Sparkを初めて使用します。現在のところ、CDH のどのバージョンも Apache Spark SQL をサポートしていないと聞きました。hortonworks ディストリビューションでも同様です。本当..？

もう 1 つは、私の PC に CDH 5.0.0 がインストールされていることです。私の CDH はどのバージョンの Apache Spark をサポートしていますか?

また、私の CDH ディストリビューションで私の Spark プログラムを実行する手順を教えてください。Apache Spark 1.2 バージョンを使用していくつかの基本的なプログラムを作成しましたが、それらのプログラムを CDH 環境で実行できません。spark-submit コマンドを使用して Spark プログラムを実行しているときに、非常に基本的な問題に直面しています。

spark-submit: コマンドが見つかりません

Spark プログラムを実行する前に、何か構成する必要がありますか?

前もって感謝します

apache-spark cloudera-cdh apache-spark-sql

2015-02-22T06:45:41.543

0 投票する

3 に答える

4811 参照

elasticsearch - Spark SQL を介して Tableau と Elastic Search を接続する

Hive SQL を介して Tableau を Elastic Search に接続する方法について説明している投稿を見つけました。ハイブに詳しくないので、Spark SQL 経由で Elastic Search に接続する方法があるかどうか疑問に思っていました。

ありがとう。

elasticsearch hive tableau-api apache-spark-sql

2015-02-23T20:27:54.793

0 投票する

3 に答える

1407 参照

scala - スパークシェルの22フィールドの制限を克服するために、Productインターフェースでscalaクラスを拡張しているときにエラーが発生しました

29 個のフィールドをサポートするクラススキーマを作成する必要があります。ケースクラスの22フィールドの制限により、次のようにクラス「sdp_d」をProductインターフェースで拡張しようとしました：

}

これにより、クラス「sdp_d」が定義されました。ただし、この事前定義されたスキーマを使用して csv データをロードし、テーブルとして登録しようとすると、エラーが発生します。

私はスパークシェルで働いています。Spark バージョン 1.1.0 および scala バージョン 2.10.4。

エラー : not found: 値 sdp_d の理由がわかりません。

Product インターフェイスを拡張する独自のクラスを作成する場合、registerAsTable はどのようにすればよいですか??

エラーの解決にご協力ください。

scala apache-spark apache-spark-sql

2015-02-24T06:07:20.327

0 投票する

1 に答える

744 参照

apache-spark - Spark を使用してカスタム結合 (主キーを使用しない) は可能ですか?

主キーを介してペア RDD に参加することはできますが、値オブジェクトの特定の属性に基づいて参加することは可能ですか?

たとえば、リスト、または 2 つのオブジェクトのペアリストがあるとします。

TV_station_information station_name が View_information station_name と一致するこれら 2 つのリストに参加したいと思います。

View_information station_name のキーを作成できません。各ステーションには大量のタイムブロックがあるためです。また、Spark を介して、View_information テーブルを他のテーブルと結合しています。

どんな助けでも素晴らしいでしょう。

apache-spark apache-spark-sql

2015-02-24T22:06:13.973

問題タブ [apache-spark-sql]

Reference