問題タブ [flume-twitter]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73 問題

0 投票する

1 に答える

4035 参照

hadoop - Twitter avro データをハイブテーブルに正しく読み込めません

君の力が必要！

Twitter からデータを取得し、分析のために Hive にロードする簡単な演習を試みています。Flume (Twitter 1% firehose Source を使用) を使用して HDFS にデータを取得することはできますが、データを Hive テーブルにロードすることもできます。

しかし、user_location、user_description、user_friends_count、user_description、user_statuses_count などの Twitter データに存在するはずのすべての列を表示できません。Avro から派生したスキーマには、ヘッダーと本文の 2 つの列のみが含まれます。

以下は私が行った手順です：

1) 以下の設定で Flume エージェントを作成します:

2) avro データファイルからスキーマを派生させます。avro データファイルから派生したスキーマにヘッダーと本文の 2 つの列しかない理由がわかりません。

3) 上記のエージェントを実行し、HDFS でデータを取得し、avro データのスキーマを見つけて、次のように Hive テーブルを作成します。

4) ハイブテーブルについて説明します。

5) テーブルのクエリ: テーブルをクエリすると、「本文」列にバイナリデータが表示され、「ヘッダー」列に実際のスキーマ情報が表示されます。

「ヘッダー」列に示されているように、実際のスキーマのすべての列を含むハイブテーブルを作成するにはどうすればよいですか。user_location、user_description、user_friends_count、user_description、user_statuses_count などのすべての列を意味しますか?

avro データファイルから派生したスキーマには、より多くの列を含める必要がありますか?

Flume エージェント (org.apache.flume.source.twitter.TwitterSource) で使用したflume-avro ソースに問題はありますか?

読んでくれてありがとう..

Farrukh に感謝します。間違いは構成 'a1.sinks.k1.serializer = avro_event' であることがわかりました。これを 'a1.sinks.k1.serializer = text' に変更し、データを Hive にロードすることができました。 . しかし、問題はHiveからデータを取得することです.そうしている間に以下のエラーが発生します:

2015-06-05T08:07:46.330

0 投票する

1 に答える

461 参照

java - リモートデバッグ Flume のカスタムソースとロギング

Flume (バージョン 1.5.0) エージェントのカスタムソースがあり、それをデバッグしたいと考えています。Cloudera の例hereから、実際にはカスタム Twitter ソースです。いくつか質問があります:

(1) Flume エージェントを実行すると、(Java で記述された) Flume ソースをリモートでデバッグできますか?

さらに、エージェントを実行すると、このオプションがあります

-Dflume.root.logger=DEBUG,console

しかしlogger.debug、Java ソースにある s が端末に表示されないようです。(2) ログを表示するにはどうすればよいですか? Flume またはロギング構成に何が欠けていますか?

logger.debug(3) ログを表示できる場合、Flume エージェント自身のログを除いて、Flume ソースのみのコンソール出力をファイルに出力するにはどうすればよいですか?

ありがとう。

java logging remote-debugging flume-ng flume-twitter

2015-06-17T02:39:24.993

0 投票する

2 に答える

1667 参照

apache - Flume でログファイル名を設定する方法

ログ収集に Apache Flume を使用しています。これは私の設定ファイルです

私のアプリケーションは正常に動作しています。私の問題は、log_dir でファイルがデフォルトで乱数 (タイムスタンプだと思います) のタイムスタンプを使用していることです。

ログファイルに適切なファイル名サフィックスを付けるには?

apache logging flume flume-ng flume-twitter

2015-06-30T10:10:56.850

0 投票する

1 に答える

1735 参照

java - カスタムソースで Flume エージェントを実行する

ここからカスタムソースを使用して Flume エージェントを設定しようとしています。コマンドを使用して Flume エージェントを実行しようとしました

Flume-ng エージェント --conf conf --conf-file conf/twitter1.conf --name TwitterAgent

しかし、Flume-agent を起動できません。次のようなエラーメッセージが表示されます。

コマンドプロンプトの応答は

設定ファイルは

java twitter4j flume flume-ng flume-twitter

2015-07-13T12:43:48.653

0 投票する

0 に答える

420 参照

hbase - Flume は lifecycle.LifecycleSupervisor で停止しました

Flumeを介してTwitterデータをhbaseにシンクしようとしています.Flumeプロセスは以下の情報で停止しました

これは私のflume.confです

Flume.conf に設定上の問題はありますか? またはhbaseシリアライザーの問題？

では、これをデバッグするにはどうすればよいですか?

hbase flume flume-ng flume-twitter

2015-08-04T17:38:28.347

1 2 3 4 5 6 7 8 9 10

問題タブ [flume-twitter]

hadoop - Twitter avro データをハイブ テーブルに正しく読み込めません

java - リモート デバッグ Flume のカスタム ソースとロギング

apache - Flume でログファイル名を設定する方法

java - カスタム ソースで Flume エージェントを実行する

hbase - Flume は lifecycle.LifecycleSupervisor で停止しました

Reference

hadoop - Twitter avro データをハイブテーブルに正しく読み込めません

java - リモートデバッグ Flume のカスタムソースとロギング

java - カスタムソースで Flume エージェントを実行する