1

私はflumeを初めて使用します。私のflumeエージェントはhttpサーバーとしてソースを持ち、そこから定期的にzipファイル(圧縮されたxmlファイル)を取得します。このzipファイルは非常に小さく(10 MB未満)、zipファイルを置きたいですhdfsシンクに抽出されました。これを行う方法についていくつかのアイデアを共有してください。カスタムインターセプターを使用する必要がありますか。

4

1 に答える 1

2

Flume は、特定のデシリアライザーを構成する場合を除いて、ファイルを 1 行ずつ読み取ろうとします。デシリアライザーを使用すると、ファイルを解析してイベントに分割する方法を制御できます。もちろん、PDF などのために設計された blob デシリアライザーの例に従うこともできますが、実際にはそれらを解凍してから行ごとに読みたいと思っていることは理解しています。その場合、Zip を読み取り、行ごとのイベントを書き込むカスタム デシリアライザーを作成する必要があります。

ドキュメントのリファレンスは次のとおりです。

https://flume.apache.org/FlumeUserGuide.html#event-deserializers

于 2015-02-04T22:59:58.940 に答える