問題タブ [spark-avro]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

207 問題

0 投票する

3 に答える

21037 参照

apache-spark - スパークでスキーマを使用してハイブ外部テーブルを作成する

私はspark 1.6を使用しており、ハイブスクリプトで行うのと同じように外部ハイブテーブルを作成することを目指しています. これを行うには、最初にパーティション分割された avro ファイルを読み取り、このファイルのスキーマを取得します。ここで停止しましたが、このスキーマを作成中のテーブルに適用する方法がわかりません。スカラを使っています。みんな助けが必要です。

2016-07-27T16:51:41.260

0 投票する

2 に答える

2287 参照

amazon-web-services - spark-avro jar を Amazon EMR クラスターにブートストラップする

Zeppelin ノートブックから Amazon S3 にある avro ファイルを読み取りたいです。Databricks には素晴らしいパッケージがあることを理解していspark-avroます。この jar ファイルをクラスターにブートストラップして機能させるために必要な手順は何ですか?

これを手帳に書くと、 val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")

以下のエラーが表示されます - <console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader

私はこれを見てきました。そこに投稿されたソリューションは、Amazon EMR の最新バージョンでは機能しないと思います。

誰かが私に指針を与えることができれば、それは本当に役に立ちます.

amazon-web-services amazon-emr spark-avro

2016-08-01T16:22:54.433

0 投票する

1 に答える

2701 参照

apache-spark - Java で spark データセットを使用して avro データを読み取る

私はsparkの初心者で、javaを使用してavroデータをspark 'dataset' (spark 1.6)にロードしようとしています。scala にはいくつかの例がありますが、java にはありません。Java の例へのポインタは役に立ちます。javaRDD を作成してから、それを「データセット」に変換しようとしました。まっすぐ進む道があるに違いないと私は信じています。

apache-spark apache-spark-dataset spark-avro

2016-08-22T00:08:07.930

0 投票する

0 に答える

121 参照

apache-spark - 複雑なjsonログデータ変換を使用していますか?

私はデータサイエンスツールを初めて使用し、json ログを通常の csv と見なされる平坦化された列データに変換するユースケースを持っています。Apache Spark Sqlを使用していますが、問題は、jsonログが階層配列を含む複雑なデータ構造になる可能性があることです。つまり、データセットを複数回展開して変換する必要があります。

問題は、同じコードのチャンクを異なる変換ロジックで再利用したいので、データ変換のロジックをハードコーディングしたくないことです。コード。

同じ理由で、入力用に独自のスキーマを定義する自由を提供するApache Avroを調べていましたが、ここで問題は、出力スキーマも定義できるかどうかわからないことです。そうでない場合は、(生成された) avro データ構造を読み取り、コードロジックにフィルター処理することと同じになります。

私が考えることができる1つの考えられる解決策は、配列フィールドといくつかのフラグとともにスキーマを定義して、パーサーに爆発するように通知することです。これは、入力スキーマを出力に変換するまで再帰的になる可能性があります。つまり、ベースの変換ロジックを生成します。私の入力および出力スキーマについて。

私が知らない、または考えられないより良いアプローチはありますか？

apache-spark apache-spark-sql avro spark-avro

2016-09-05T22:12:48.890

0 投票する

1 に答える

439 参照

hadoop - HDFS での Avro スキーマの生成

HDFS に一連の avro ファイルがあるシナリオがあります。HDFS にこれらの AVRO データファイルの Avro スキーマファイルを生成する必要があります。Spark ( https://github.com/databricks/spark-avro/ blob/master/src/main/scala/com/databricks/spark/avro/SchemaConverters.scala )。

AVRO データファイルをローカルに移動して HDFS PUT を実行する以外に何かありますか。

どんな提案でも歓迎します.Thanks!

hadoop apache-spark avro spark-avro

2016-10-14T15:38:41.123

0 投票する

1 に答える

961 参照

scala - Spark Daraframe Avro Map をフラット形式に分解する

Spark Shell v_1.6.1.5 を使用しています。

次の Spark Scala データフレームがあります。

次のフラットな形式に「展開」するための正確な構文は何ですか (可能な null 値を破棄します): [id, key, value]?

scala apache-spark spark-dataframe avro spark-avro

2016-11-15T20:33:16.593

0 投票する

2 に答える

6779 参照

pyspark - spark-avro のインストール

pyspark で avro ファイルを読み込もうとしています。How to read Avro file in PySparkから、spark-avro がそれを行うための最良の方法であることがわかりましたが、Github repoからそれをインストールする方法がわかりません。ダウンロード可能な jar はありません。自分でビルドしますか? どのように？

クラスターで実行されているのは Spark 1.6 (pyspark) です。私はそれをセットアップしなかったので、構成についてはあまり知りませんが、sudoアクセスがあるので、インストールできるはずです。ただし、マシンには直接インターネットにアクセスできないため、手動でコピーしてインストールする必要があります。

ありがとうございました。

pyspark spark-avro

2016-11-17T06:12:42.423

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-avro]

Reference