多数の小さなファイルを HDFS シーケンス ファイルに移動したいと考えています。私は2つのオプションに出くわしました:
- フルームを使用します。Flume にはファイル ソースが組み込まれていないため、ファイルをプッシュするにはカスタム ソースが必要です。
- hdfs ルートに apache camel ファイルを使用します。
上記の 2 つの方法は目的を果たしますが、いずれかを選択する前に、利用可能な他のオプションを検討したいと思います。特に、より構成可能で保守性の低いコードになるソリューションに興味があります。