新しいファイルが特定のフォルダーに到着するたびに、リモート マシンから hdfs にファイルをフェッチしようとしていました。Flume でスプール ディレクトリの概念に出会いました。スプール ディレクトリが Flume エージェントが実行されているマシンと同じマシンにある場合、問題なく動作していました。
リモートマシンでスプールディレクトリを構成する方法はありますか?? 助けてください。
Flume は複数のインスタンスを生成できることに気付いているかもしれません。つまり、いくつかの Flume インスタンスをインストールして、それらの間でデータを渡すことができます。
いいえ、flume はリモートのスプール ディレクトリにアクセスできません。ただし、2 つのエージェントをインストールできます。1 つはスプール ディレクトリのあるマシンに、もう 1 つは Hadoop ノードにインストールできます。
1 つ目はスプールから読み取り、avro rpc を介して 2 つ目のエージェントに渡します。2 つ目のエージェントはデータを HDFS にフラッシュします。
これは単純なセットアップであり、数行の構成のみが必要です。