“flume-ng”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2420 参照

hadoop - ソースで前処理を実行し、実際のファイル名を hdfs シンクに保持する Flume の使用方法

私は Apache Flume を使用するのが初めてで、それがどのように機能するかを正確に理解するのは困難です。私の問題を説明するために、私は自分の必要性と私がやったことを説明します。

csv ファイルのディレクトリ (これらのファイルは 5 分ごとに作成されます) と HDFS クラスターの間のストリームを構成したいと考えています。

「スプーリングディレクトリ」ソースと HDFS シンクが必要であることがわかりました。それは私にこのflume.confファイルを与えます

その結果、ローカルファイルシステムで入力ファイルの名前が「.complete」に変更され、HDFS にデータがアップロードされ、Flume によって生成された一意の新しい名前が付けられます。

それはほとんど私が必要としていたものです。

しかし、アップロードする前に、ファイル固有の操作 (ヘッダーの削除、カンマのエスケープなど) を行いたいと考えています。方法がわかりません。インターセプターを使用することを考えています。しかし、データがフルームにある場合、イベントで変換され、ストリーミングされます。彼の時点では、ファイルの知識はありません。

そうしないと、元の時間イベントがファイル名に書き込まれるため、現在の日付ではなく、この時間をイベントに関連付けたいと思います。

また、元のファイル名を hdfs に保持したい (そこにはいくつかの有用な情報があります)。

誰でも私を助けるためのアドバイスがありますか?

2014-12-23T13:47:59.377

0 投票する

1 に答える

780 参照

flume-ng - Flume スプーリングディレクトリを使用して、ファイル全体を 1 つのファイルとして HDFS に移動します。

Flume のドキュメントによると、イベントサイズ、イベントカウント、または期間に基づいてデータを HDFS に移動できます。ファイル全体をスプールディレクトリから HDFS に単一のファイルとして移動する方法はありますか

ありがとう。

flume-ng

2015-01-07T07:39:10.423

0 投票する

1 に答える

1621 参照

hdfs - Flume ヘッダーを HDFS シンクに書き込んで本体をドロップすることは可能ですか?

text_with_headers シリアライザー (HDFS シンクシリアライザー) を使用すると、Flume イベントヘッダーを破棄せずに保存できます。出力形式は、ヘッダー、スペース、本文ペイロードで構成されます。本文を削除して、ヘッダーのみを保持したいと考えています。HBase シンクの場合、「RegexHbaseEventSerializer」を使用してイベントを変換できます。しかし、HDFS シンクのそのような規定を見つけることができません。

hdfs flume serialization flume-ng sink

2015-01-08T07:26:22.573

0 投票する

1 に答える

1305 参照

apache-kafka - 複数の Windows サーバーから中央サーバーにログファイルを転送する方法

ログを継続的に生成する Tableau サーバー (Windows プラットフォーム) があります。リアルタイム分析のためにApache Sparkにストリーミングしたいと思います。次の解決策を見ましたが、要件を満たすものはないようです。

1) nxlog エージェントを使用します。将来、複数のタブローサーバーからログが取得される可能性があるため、これはスケーラブルではありません。

2) 流暢、flume は Windows と互換性がありません。

3) Kafka は、ログファイルを追跡しないため、論外です。

そのような問題に対するスケーラブルな解決策は何ですか? 主な制限は、Tableau Server が Windows で実行されていることです。

apache-kafka spark-streaming fluentd flume-ng nxlog

2015-01-11T18:26:03.337

0 投票する

1 に答える

55 参照

hadoop - 追加ファイルが MapReduce ジョブによって完全にロードされないのはなぜですか?

HDFSシンクにデータをストリーミングする（同じファイルに追加する）フルームがあり、これを「猫」にしてHDFSから見ることができます。ただし、MapReduce ジョブは、フラッシュされた最初のバッチ (bacthSize = 100) のみを取得しています。残りは拾われていませんが、猫を飼って残りを見ることができました。ファイルがロールされた (閉じられた) 後に MapRecue ジョブを実行すると、すべてのデータが取得されます。残りのバッチが存在するにもかかわらず、MR ジョブがバッチの残りを見つけられない理由を知っていますか。

hadoop mapreduce flume flume-ng

2015-01-13T19:05:10.160

0 投票する

1 に答える

642 参照

hadoop - オンラインデータを hdfs に収集する際のフルーム損失データ

ログの収集にはflume-ng 1.5バージョンを使用しました。

データフローには 2 つのエージェントがあり、それぞれ 2 つのホスト上にあります。

そして、データはエージェント 1からエージェント 2 に送信されます。

エージェントのコンポーネントは次のとおりです。

agent1: スプーリングディレクトリソース --> ファイルチャネル --> avro シンク

agent2: avro ソース --> ファイルチャネル --> hdfs シンク

しかし、100 万分の 1 の割合のデータが失われているようです。 問題を解決するために、次の手順を試しました。

エージェントログを検索します。エラーまたは例外が見つかりません。
エージェントモニターメトリクスの検索: チャネルから出入りするイベント数は常に等しい
hive クエリと hdfs ファイルによるデータ数の統計は、それぞれシェルを使用します。

agent1 の構成:

agent2 の構成

どんな提案も大歓迎です！

hadoop flume-ng

2015-01-21T10:21:28.583

0 投票する

1 に答える

1677 参照

flume - hdfs シンクに zip ファイルをアップロードするために Flume を使用する方法

私はflumeを初めて使用します。私のflumeエージェントはhttpサーバーとしてソースを持ち、そこから定期的にzipファイル（圧縮されたxmlファイル）を取得します。このzipファイルは非常に小さく（10 MB未満）、zipファイルを置きたいですhdfsシンクに抽出されました。これを行う方法についていくつかのアイデアを共有してください。カスタムインターセプターを使用する必要がありますか。

flume flume-ng

2015-02-03T14:55:20.233

0 投票する

1 に答える

2126 参照

hadoop - Flume を使用して csv ファイルを HDFS にロードする (ソースとしてスプールディレクトリ)

ソースとしてflumeとspooldir、シンクとしてHDFSを使用して、csvファイル（6MB）をHDFSにロードしようとしています。これが私の構成ファイルです：

その後、これらのエラーが発生し、理由がわかりません:

誰でもこの問題で私を助けてもらえますか?

hadoop hadoop-streaming flume hortonworks-data-platform flume-ng

2015-02-05T09:11:37.613

0 投票する

0 に答える

278 参照

flume-ng - イベントを分割する Apache Flume カスタム zip デシリアライザー

複数の XML ファイルを含む zip ファイルを読み取るために Apache Flume 1.6.0.SNAPSHOT を使用しています。各 XML をイベントとして表現したいと考えています。BlobDeserializer の例に従ってみましたが、XML の数に基づいてイベントを分割できません。誰かがこれについて私を助けてくれませんか。ありがとう

flume-ng

2015-02-09T10:52:37.347

問題タブ [flume-ng]

Reference