フォルダー内のファイルを読み取り、zipに追加するmapReduceタスク(https://github.com/flopezluis/testing-hadoop)があります。このタスクは永久に実行する必要があるため、処理が終了したら、再度実行する必要があります。私はoozieについて読んでいますが、それが私の問題には大きすぎるので、それが最適かどうかはわかりません。
oozieが最善の解決策である場合。10分ごとに実行するコーディネーターを作成した場合、タスクに10分以上かかると、コーディネーターはタスクの再実行を待機します。
タスクの説明
フォルダは常に同じです。zipファイルには違いがあります。1つはキー用です。アイデアは、zipファイルを段階的に作成することです。これは、すべてのファイルが処理された後にzipファイルを作成するよりも速いと思います。ファイルには次のようなものが含まれています。
<info operationId="key1">
DATA1
</info>
<info operationId="key1">
DATA2
</info>
<info operationId="key2">
DATA3
</info>
したがって、zipは次のようになります。
key1.zip-> data1、data2
key3.zip-> data3
ありがとう