問題タブ [gobblin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2793 参照

java - Java を使用して Spark 1.3.1 で AVRO データを読み取るにはどうすればよいですか?

Gobblin ( https://github.com/linkedin/gobblin/wiki )と呼ばれるテクノロジによってそこに置かれた HDFS からAVRO レコード ( https://avro.apache.org/ )を読み取る Java Spark アプリケーションを開発しようとしています。

サンプルの HDFS AVRO データ ファイル:

/gobblin/work/job-output/KAFKA/kafka-gobblin-hdfs-test/20150910213846_append/part.task_kafka-gobblin-hdfs-test_1441921123461_0.avro

残念ながら、Java で書かれた例は限られていることがわかりました。

私が見つけた最高のものは、Scala で書かれています (Hadoop バージョン 1 ライブラリを使用)。

どんな助けでも大歓迎です。

現在、次のコードを使用することを考えていますが、AVRO データから値の HashMap を抽出する方法がわかりません。

私の現在の Maven の依存関係:

0 投票する
1 に答える
780 参照

hadoop - Gobblin Map-reduce ジョブは EMR で正常に実行されていますが、s3 では出力がありません

3 ノードの EMR クラスターを使用して、kafka から s3 にデータを移動するために gobblin を実行しています。私はhadoop 2.6.0で実行しており、2.6.0に対してゴブリンも構築しました。

map-reduce ジョブが正常に実行されているようです。私のhdfsには、メトリックと作業ディレクトリが表示されます。metrics にはいくつかのファイルがありますが、作業ディレクトリは空です。S3 バケットには最終出力があるはずですが、データがありません。そして最後にこう言っている

出力タスクの状態パス /gooblinOutput/working/GobblinKafkaQuickStart_mapR3/output/job_GobblinKafkaQuickStart_mapR3_1460132596498 が存在しません 作業ディレクトリを削除しました /gooblinOutput/working/GobblinKafkaQuickStart_mapR3

最終ログは次のとおりです。

ここに私のconfファイルがあります:

ファイル 2 : kafka-to-s3.pull

コマンドの実行

何が起こっているのかわからない。誰か助けてくれませんか?

0 投票する
1 に答える
718 参照

scala - Spark - Avro はスキーマを読み取りますが、DataFrame は空です

Gobblinを使用して定期的に からリレーショナル データを抽出しOracle、変換してavro公開しています。HDFS

私のdfsディレクトリ構造は次のようになります

私はそれから次のように読み取ろうとしています:

実行するprintSchemaと、スキーマが正しく解釈されていることがわかります。

ただし、countまたはを実行するshowと、DataFramesが空になります。.avroに変換して、ファイルが空でないことを確認しましたJSON

ディレクトリ構造と関係があるのではないかと思います。おそらく、Spark avro ライブラリは、ルートから 1 レベル下の.avroファイルしか参照しません。ログは、t1 の下のディレクトリのみがドライバーにリストされたことを示しているようです。

16/07/07 10:47:09 INFO avro.AvroRelation: リスト hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1 ドライバー

16/07/07 10:47:09 INFO avro.AvroRelation: リスト hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1/20160706230001_append ドライバー

誰かが似たようなことを経験したことがありますか、またはこれを回避する方法を知っていますか? t1名前はタイムスタンプによって生成されるため、ディレクトリより下を指さなければなりません。

0 投票する
1 に答える
320 参照

apache-kafka - Gobblin Kafka から HDFS へ: 同じファイルに追加

Gobblin を使用して、Kafka から HDFS の同じファイルに新しいメッセージを追加する方法はありますか? これで、Kafka から読み取るたびに新しいファイルが作成されます。例えば毎分Gobblinジョブを実行すると、ファイルが大量に発生します。

助けてください!

0 投票する
1 に答える
107 参照

java - ゴブリン - Facebook から投稿を取得する方法

私はしばらく Gobblin を調査してきましたが、現在、Gobblin を使用して Facebook から投稿を取得する際に問題が発生しています。インターネットで接続例が見つからなかったか、検索が間違っていた可能性があります。

私は restfb を Gobblin に統合することを検討していますが、Gobblin にはコネクタ、ソース、エクストラクタを持つ RestAPI クラスがあり、これらを組み合わせる方法を見つけるのに苦労しています。これを実装する方法についての簡単なガイドを教えてください。または正しい指示を教えてください。事前にどうもありがとうございました。

0 投票する
1 に答える
134 参照

eclipse - goblin gradle プロジェクトを IDE にインポート中にエラーが発生しました

gobblin ディストリビューションを IDE にインポートしようとすると、このエラーが発生します。 inteliJ と eclipse の両方を試しましたが、うまくいきませんでした。以下は、インポートしようとしたときに発生するエラーです。Eclipse では、エラーは次のとおりです。