問題タブ [gobblin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java を使用して Spark 1.3.1 で AVRO データを読み取るにはどうすればよいですか?
Gobblin ( https://github.com/linkedin/gobblin/wiki )と呼ばれるテクノロジによってそこに置かれた HDFS からAVRO レコード ( https://avro.apache.org/ )を読み取る Java Spark アプリケーションを開発しようとしています。
サンプルの HDFS AVRO データ ファイル:
/gobblin/work/job-output/KAFKA/kafka-gobblin-hdfs-test/20150910213846_append/part.task_kafka-gobblin-hdfs-test_1441921123461_0.avro
残念ながら、Java で書かれた例は限られていることがわかりました。
- https://spark.apache.org/docs/1.3.1/quick-start.html
- https://spark.apache.org/docs/1.3.1/programming-guide.html
私が見つけた最高のものは、Scala で書かれています (Hadoop バージョン 1 ライブラリを使用)。
どんな助けでも大歓迎です。
現在、次のコードを使用することを考えていますが、AVRO データから値の HashMap を抽出する方法がわかりません。
私の現在の Maven の依存関係:
hadoop - Gobblin Map-reduce ジョブは EMR で正常に実行されていますが、s3 では出力がありません
3 ノードの EMR クラスターを使用して、kafka から s3 にデータを移動するために gobblin を実行しています。私はhadoop 2.6.0で実行しており、2.6.0に対してゴブリンも構築しました。
map-reduce ジョブが正常に実行されているようです。私のhdfsには、メトリックと作業ディレクトリが表示されます。metrics にはいくつかのファイルがありますが、作業ディレクトリは空です。S3 バケットには最終出力があるはずですが、データがありません。そして最後にこう言っている
出力タスクの状態パス /gooblinOutput/working/GobblinKafkaQuickStart_mapR3/output/job_GobblinKafkaQuickStart_mapR3_1460132596498 が存在しません 作業ディレクトリを削除しました /gooblinOutput/working/GobblinKafkaQuickStart_mapR3
最終ログは次のとおりです。
ここに私のconfファイルがあります:
ファイル 2 : kafka-to-s3.pull
コマンドの実行
何が起こっているのかわからない。誰か助けてくれませんか?
scala - Spark - Avro はスキーマを読み取りますが、DataFrame は空です
Gobblinを使用して定期的に からリレーショナル データを抽出しOracle
、変換してavro
公開しています。HDFS
私のdfsディレクトリ構造は次のようになります
私はそれから次のように読み取ろうとしています:
実行するprintSchema
と、スキーマが正しく解釈されていることがわかります。
ただし、count
またはを実行するshow
と、DataFrames
が空になります。.avro
に変換して、ファイルが空でないことを確認しましたJSON
ディレクトリ構造と関係があるのではないかと思います。おそらく、Spark avro ライブラリは、ルートから 1 レベル下の.avro
ファイルしか参照しません。ログは、t1 の下のディレクトリのみがドライバーにリストされたことを示しているようです。
16/07/07 10:47:09 INFO avro.AvroRelation: リスト hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1 ドライバー
16/07/07 10:47:09 INFO avro.AvroRelation: リスト hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1/20160706230001_append ドライバー
誰かが似たようなことを経験したことがありますか、またはこれを回避する方法を知っていますか? t1
名前はタイムスタンプによって生成されるため、ディレクトリより下を指さなければなりません。
apache-kafka - Gobblin Kafka から HDFS へ: 同じファイルに追加
Gobblin を使用して、Kafka から HDFS の同じファイルに新しいメッセージを追加する方法はありますか? これで、Kafka から読み取るたびに新しいファイルが作成されます。例えば毎分Gobblinジョブを実行すると、ファイルが大量に発生します。
助けてください!
java - ゴブリン - Facebook から投稿を取得する方法
私はしばらく Gobblin を調査してきましたが、現在、Gobblin を使用して Facebook から投稿を取得する際に問題が発生しています。インターネットで接続例が見つからなかったか、検索が間違っていた可能性があります。
私は restfb を Gobblin に統合することを検討していますが、Gobblin にはコネクタ、ソース、エクストラクタを持つ RestAPI クラスがあり、これらを組み合わせる方法を見つけるのに苦労しています。これを実装する方法についての簡単なガイドを教えてください。または正しい指示を教えてください。事前にどうもありがとうございました。
eclipse - goblin gradle プロジェクトを IDE にインポート中にエラーが発生しました
gobblin ディストリビューションを IDE にインポートしようとすると、このエラーが発生します。 inteliJ と eclipse の両方を試しましたが、うまくいきませんでした。以下は、インポートしようとしたときに発生するエラーです。Eclipse では、エラーは次のとおりです。