問題タブ [flume-ng]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

392 問題

0 投票する

1 に答える

724 参照

hadoop - S3 Flume HDFS SINK 圧縮

Flume イベントを Amaozn S3 に書き込もうとしています。S3 に書き込まれたイベントは圧縮形式です。私のFlume構成は以下のとおりです。データの損失に直面しています。以下に示す構成に基づいて、20000 のイベントを発行すると、1000 のイベントしか受信せず、他のすべてのデータが失われます。しかし、rollcount、rollSize、および rollInterval 構成を無効にすると、すべてのイベントが受信されますが、2000 の小さなファイルが作成されます。構成設定に問題はありますか? 他の構成を追加する必要がありますか?

2015-05-20T03:46:35.633

0 投票する

3 に答える

5803 参照

flume - Flume イベントヘッダーのタイムスタンプが予期されていましたが、null でした

以下の構成の詳細を使用して、Flume を使用して Twitter フィードを HDFS にプッシュしていますが、Flume イベントヘッダーで期待されるタイムスタンプを取得していますが、null でした

さえずり.conf

コマンドで実行

twitter.conf私の設定ファイル名はどこですか

しかし、次のようにエラーを取得します：

さらにヘルプをお探しですか??

flume flume-ng flume-twitter

2015-06-04T13:47:52.623

0 投票する

1 に答える

4035 参照

hadoop - Twitter avro データをハイブテーブルに正しく読み込めません

君の力が必要！

Twitter からデータを取得し、分析のために Hive にロードする簡単な演習を試みています。Flume (Twitter 1% firehose Source を使用) を使用して HDFS にデータを取得することはできますが、データを Hive テーブルにロードすることもできます。

しかし、user_location、user_description、user_friends_count、user_description、user_statuses_count などの Twitter データに存在するはずのすべての列を表示できません。Avro から派生したスキーマには、ヘッダーと本文の 2 つの列のみが含まれます。

以下は私が行った手順です：

1) 以下の設定で Flume エージェントを作成します:

2) avro データファイルからスキーマを派生させます。avro データファイルから派生したスキーマにヘッダーと本文の 2 つの列しかない理由がわかりません。

3) 上記のエージェントを実行し、HDFS でデータを取得し、avro データのスキーマを見つけて、次のように Hive テーブルを作成します。

4) ハイブテーブルについて説明します。

5) テーブルのクエリ: テーブルをクエリすると、「本文」列にバイナリデータが表示され、「ヘッダー」列に実際のスキーマ情報が表示されます。

「ヘッダー」列に示されているように、実際のスキーマのすべての列を含むハイブテーブルを作成するにはどうすればよいですか。user_location、user_description、user_friends_count、user_description、user_statuses_count などのすべての列を意味しますか?

avro データファイルから派生したスキーマには、より多くの列を含める必要がありますか?

Flume エージェント (org.apache.flume.source.twitter.TwitterSource) で使用したflume-avro ソースに問題はありますか?

読んでくれてありがとう..

Farrukh に感謝します。間違いは構成 'a1.sinks.k1.serializer = avro_event' であることがわかりました。これを 'a1.sinks.k1.serializer = text' に変更し、データを Hive にロードすることができました。 . しかし、問題はHiveからデータを取得することです.そうしている間に以下のエラーが発生します:

hadoop avro flume-ng flume-twitter

2015-06-05T08:07:46.330

0 投票する

3 に答える

933 参照

hadoop - HDFS で Flume から作成されたファイルを Spark ストリームが読み取れない

Flume を使用してウェブログから hdfs にデータストリームを書き込み、spark ストリームを使用してそのデータを処理するリアルタイムアプリケーションを作成しました。しかし、flume が hdfs に新しいファイルを書き込んで作成している間、spark ストリームはそれらのファイルを処理できません。put コマンドを使用して hdfs ディレクトリにファイルを配置している場合、spark ストリームはファイルを読み取って処理できます。同じことに関するどんな助けも素晴らしいでしょう。

hadoop apache-spark hdfs spark-streaming flume-ng

2015-06-09T04:13:38.787

0 投票する

1 に答える

817 参照

twitter - PIG を使用した Avro データのクエリエラー、Utf8 は java.lang.String にキャストできません

Flume を使用して Twitter データを HDFS にダウンロードしましたが、PIG を使用してクエリを実行しようとすると、クラスキャスト例外が発生し、utf-8 から String に変換できません。

エラー 2997: IOException が発生しました。例外

twitter apache-pig avro flume-ng

2015-06-12T08:05:50.727

1 2 3 4 5 6 7 8 9 10

問題タブ [flume-ng]

hadoop - S3 Flume HDFS SINK 圧縮

flume - Flume イベント ヘッダーのタイムスタンプが予期されていましたが、null でした

hadoop - Twitter avro データをハイブ テーブルに正しく読み込めません

hadoop - HDFS で Flume から作成されたファイルを Spark ストリームが読み取れない

twitter - PIG を使用した Avro データのクエリ エラー、Utf8 は java.lang.String にキャストできません

Reference

flume - Flume イベントヘッダーのタイムスタンプが予期されていましたが、null でした

hadoop - Twitter avro データをハイブテーブルに正しく読み込めません

twitter - PIG を使用した Avro データのクエリエラー、Utf8 は java.lang.String にキャストできません