問題タブ [gobblin]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

46 問題

0 投票する

1 に答える

2793 参照

java - Java を使用して Spark 1.3.1 で AVRO データを読み取るにはどうすればよいですか?

Gobblin ( https://github.com/linkedin/gobblin/wiki )と呼ばれるテクノロジによってそこに置かれた HDFS からAVRO レコード ( https://avro.apache.org/ )を読み取る Java Spark アプリケーションを開発しようとしています。

サンプルの HDFS AVRO データファイル:

/gobblin/work/job-output/KAFKA/kafka-gobblin-hdfs-test/20150910213846_append/part.task_kafka-gobblin-hdfs-test_1441921123461_0.avro

残念ながら、Java で書かれた例は限られていることがわかりました。

私が見つけた最高のものは、Scala で書かれています (Hadoop バージョン 1 ライブラリを使用)。

https://gist.github.com/MLnick/5864741781b9340cb211

どんな助けでも大歓迎です。

現在、次のコードを使用することを考えていますが、AVRO データから値の HashMap を抽出する方法がわかりません。

私の現在の Maven の依存関係:

2015-09-24T16:24:55.573

0 投票する

1 に答える

780 参照

hadoop - Gobblin Map-reduce ジョブは EMR で正常に実行されていますが、s3 では出力がありません

3 ノードの EMR クラスターを使用して、kafka から s3 にデータを移動するために gobblin を実行しています。私はhadoop 2.6.0で実行しており、2.6.0に対してゴブリンも構築しました。

map-reduce ジョブが正常に実行されているようです。私のhdfsには、メトリックと作業ディレクトリが表示されます。metrics にはいくつかのファイルがありますが、作業ディレクトリは空です。S3 バケットには最終出力があるはずですが、データがありません。そして最後にこう言っている

出力タスクの状態パス /gooblinOutput/working/GobblinKafkaQuickStart_mapR3/output/job_GobblinKafkaQuickStart_mapR3_1460132596498 が存在しません作業ディレクトリを削除しました /gooblinOutput/working/GobblinKafkaQuickStart_mapR3

最終ログは次のとおりです。

ここに私のconfファイルがあります：

ファイル 2 : kafka-to-s3.pull

コマンドの実行

何が起こっているのかわからない。誰か助けてくれませんか？

hadoop amazon-s3 amazon-emr camus gobblin

2016-04-08T18:28:00.473

0 投票する

1 に答える

718 参照

scala - Spark - Avro はスキーマを読み取りますが、DataFrame は空です

Gobblinを使用して定期的にからリレーショナルデータを抽出しOracle、変換してavro公開しています。HDFS

私のdfsディレクトリ構造は次のようになります

私はそれから次のように読み取ろうとしています:

実行するprintSchemaと、スキーマが正しく解釈されていることがわかります。

ただし、countまたはを実行するshowと、DataFramesが空になります。.avroに変換して、ファイルが空でないことを確認しましたJSON

ディレクトリ構造と関係があるのではないかと思います。おそらく、Spark avro ライブラリは、ルートから 1 レベル下の.avroファイルしか参照しません。ログは、t1 の下のディレクトリのみがドライバーにリストされたことを示しているようです。

16/07/07 10:47:09 INFO avro.AvroRelation: リスト hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1 ドライバー

16/07/07 10:47:09 INFO avro.AvroRelation: リスト hdfs://myhost.mydomain.com:8020/user/username/gobblin/job-output/tables/t1/20160706230001_append ドライバー

誰かが似たようなことを経験したことがありますか、またはこれを回避する方法を知っていますか? t1名前はタイムスタンプによって生成されるため、ディレクトリより下を指さなければなりません。

scala apache-spark avro spark-avro gobblin

2016-07-07T17:05:05.743

0 投票する

1 に答える

320 参照

apache-kafka - Gobblin Kafka から HDFS へ: 同じファイルに追加

Gobblin を使用して、Kafka から HDFS の同じファイルに新しいメッセージを追加する方法はありますか? これで、Kafka から読み取るたびに新しいファイルが作成されます。例えば毎分Gobblinジョブを実行すると、ファイルが大量に発生します。

助けてください！

apache-kafka hdfs gobblin

2016-08-18T23:52:02.110

0 投票する

1 に答える

107 参照

java - ゴブリン - Facebook から投稿を取得する方法

私はしばらく Gobblin を調査してきましたが、現在、Gobblin を使用して Facebook から投稿を取得する際に問題が発生しています。インターネットで接続例が見つからなかったか、検索が間違っていた可能性があります。

私は restfb を Gobblin に統合することを検討していますが、Gobblin にはコネクタ、ソース、エクストラクタを持つ RestAPI クラスがあり、これらを組み合わせる方法を見つけるのに苦労しています。これを実装する方法についての簡単なガイドを教えてください。または正しい指示を教えてください。事前にどうもありがとうございました。

java facebook-graph-api restfb data-ingestion gobblin

2016-11-15T04:08:32.103

0 投票する

1 に答える

134 参照

eclipse - goblin gradle プロジェクトを IDE にインポート中にエラーが発生しました

gobblin ディストリビューションを IDE にインポートしようとすると、このエラーが発生します。 inteliJ と eclipse の両方を試しましたが、うまくいきませんでした。以下は、インポートしようとしたときに発生するエラーです。Eclipse では、エラーは次のとおりです。

eclipse intellij-idea bigdata gobblin

2017-02-02T05:10:23.633

1 2 3 4 5 6 7 8 9 10

問題タブ [gobblin]

java - Java を使用して Spark 1.3.1 で AVRO データを読み取るにはどうすればよいですか?

hadoop - Gobblin Map-reduce ジョブは EMR で正常に実行されていますが、s3 では出力がありません

scala - Spark - Avro はスキーマを読み取りますが、DataFrame は空です

apache-kafka - Gobblin Kafka から HDFS へ: 同じファイルに追加

java - ゴブリン - Facebook から投稿を取得する方法

eclipse - goblin gradle プロジェクトを IDE にインポート中にエラーが発生しました

Reference