Hadoop 実装の準備がすべて整いました。実行中のクラスターと、アクティビティ データを HDFS にプッシュするクライアント ライターがあります。次に何が起こるかについて質問があります。HDFS にダンプされたデータに対してジョブを実行することは理解していますが、私の質問は次のとおりです。
1)まず、ストリームに書き込み、定期的にフラッシュしています-HDFS Javaクライアントのスレッドを介してファイルを書き込んでいますが、サーバーを強制終了するまでファイルがHDFSに表示されません。ブロックを満たすのに十分なデータを書き込んだ場合、それは自動的にファイル システムに表示されますか? M/R ジョブで処理する準備が整ったファイルを取得するにはどうすればよいですか?
2) M/R ジョブはいつ実行しますか? 私が言ったように、私はHDFS Javaクライアントのスレッドを介してファイルを書き込んでおり、そのスレッドは書き込みのためにファイルをロックしています。どの時点でそのファイルをリリースする必要がありますか? この相互作用はどのように機能しますか? そのデータに対してジョブを実行することが「安全」になるのはどの時点でしょうか? また、完了時に HDFS 内のデータはどうなりますか?