問題タブ [spark-avro]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - スパークでスキーマを使用してハイブ外部テーブルを作成する
私はspark 1.6を使用しており、ハイブスクリプトで行うのと同じように外部ハイブテーブルを作成することを目指しています. これを行うには、最初にパーティション分割された avro ファイルを読み取り、このファイルのスキーマを取得します。ここで停止しましたが、このスキーマを作成中のテーブルに適用する方法がわかりません。スカラを使っています。みんな助けが必要です。
amazon-web-services - spark-avro jar を Amazon EMR クラスターにブートストラップする
Zeppelin ノートブックから Amazon S3 にある avro ファイルを読み取りたいです。Databricks には素晴らしいパッケージがあることを理解していspark-avro
ます。この jar ファイルをクラスターにブートストラップして機能させるために必要な手順は何ですか?
これを手帳に書くと、
val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")
以下のエラーが表示されます -
<console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader
私はこれを見てきました。そこに投稿されたソリューションは、Amazon EMR の最新バージョンでは機能しないと思います。
誰かが私に指針を与えることができれば、それは本当に役に立ちます.
apache-spark - Java で spark データセットを使用して avro データを読み取る
私はsparkの初心者で、javaを使用してavroデータをspark 'dataset' (spark 1.6)にロードしようとしています。scala にはいくつかの例がありますが、java にはありません。Java の例へのポインタは役に立ちます。javaRDD を作成してから、それを「データセット」に変換しようとしました。まっすぐ進む道があるに違いないと私は信じています。
apache-spark - 複雑なjsonログデータ変換を使用していますか?
私はデータ サイエンス ツールを初めて使用し、json ログを通常の csv と見なされる平坦化された列データに変換するユース ケースを持っています。Apache Spark Sqlを使用していますが、問題は、jsonログが階層配列を含む複雑なデータ構造になる可能性があることです。つまり、データセットを複数回展開して変換する必要があります。
問題は、同じコードのチャンクを異なる変換ロジックで再利用したいので、データ変換のロジックをハードコーディングしたくないことです。コード。
同じ理由で、入力用に独自のスキーマを定義する自由を提供するApache Avroを調べていましたが、ここで問題は、出力スキーマも定義できるかどうかわからないことです。そうでない場合は、(生成された) avro データ構造を読み取り、コード ロジックにフィルター処理することと同じになります。
私が考えることができる1つの考えられる解決策は、配列フィールドといくつかのフラグとともにスキーマを定義して、パーサーに爆発するように通知することです。これは、入力スキーマを出力に変換するまで再帰的になる可能性があります。つまり、ベースの変換ロジックを生成します。私の入力および出力スキーマについて。
私が知らない、または考えられないより良いアプローチはありますか?
hadoop - HDFS での Avro スキーマの生成
HDFS に一連の avro ファイルがあるシナリオがあります。HDFS にこれらの AVRO データ ファイルの Avro スキーマ ファイルを生成する必要があります。Spark ( https://github.com/databricks/spark-avro/ blob/master/src/main/scala/com/databricks/spark/avro/SchemaConverters.scala )。
AVRO データ ファイルをローカルに移動して HDFS PUT を実行する以外に何かありますか。
どんな提案でも歓迎します.Thanks!
scala - Spark Daraframe Avro Map をフラット形式に分解する
Spark Shell v_1.6.1.5 を使用しています。
次の Spark Scala データフレームがあります。
次のフラットな形式に「展開」するための正確な構文は何ですか (可能な null 値を破棄します): [id, key, value]
?
pyspark - spark-avro のインストール
pyspark で avro ファイルを読み込もうとしています。How to read Avro file in PySparkから、spark-avro がそれを行うための最良の方法であることがわかりましたが、Github repoからそれをインストールする方法がわかりません。ダウンロード可能な jar はありません。自分でビルドしますか? どのように?
クラスターで実行されているのは Spark 1.6 (pyspark) です。私はそれをセットアップしなかったので、構成についてはあまり知りませんが、sudoアクセスがあるので、インストールできるはずです。ただし、マシンには直接インターネットにアクセスできないため、手動でコピーしてインストールする必要があります。
ありがとうございました。