私は hadoop に非常に慣れていないので、ばかげた質問を許してください。
私は次の知識を持っています。Hadoop の最適な使用例は大きなファイルであるため、mapreduce タスクの実行中の効率が向上します。
上記を念頭に置いて、私は Flume NG について多少混乱しています。ログファイルを追跡していて、ログが毎秒生成されると仮定すると、ログが新しい行を取得すると、Flume 経由で hdfs に転送されます。
a) これは、flume がログ ファイルに記録されているすべての行に新しいファイルを作成することを意味しますか、それとも既存の hdfs ファイルに追加しますか??
b)そもそもhdfsで追加が許可されていますか??
c) b に対する答えが true の場合 ?? つまり、コンテンツは常に追加されます。mapreduce アプリケーションをいつ、どのように実行すればよいですか?
上記の質問は非常にばかげているように聞こえるかもしれませんが、同じ回答をいただければ幸いです。
PS: 私はまだ Flume NG や Hadoop をセットアップしていません。記事を読んで理解を深め、それが私の会社にどのように付加価値をもたらすかを理解しているだけです。