Hadoop ストリーミング ジョブで分散キャッシュ メカニズムを使用してファイルがノードに転送される場合、システムはジョブの完了後にこれらのファイルを削除しますか? それらが削除された場合、複数のジョブのためにキャッシュを残す方法はありますか? これは Amazon の Elastic Mapreduce でも同じように機能しますか?
1945 次
2 に答える
5
ソースコードを掘り下げていたTrackerDistributedCacheManager
ところ、参照カウントがゼロになると、1分に1回ほどファイルが削除されているようです。は、タスクの終了時にすべてのTaskRunner
ファイルを明示的に解放します。おそらくTaskRunner
、これを行わないように編集し、より明確な方法でキャッシュを自分で制御する必要がありますか?
于 2010-12-20T15:18:03.097 に答える
2
この質問をAWSフォーラムにクロスポストhadoop fs -get
し、ジョブ間で持続する方法でファイルを転送するために使用することをお勧めします。
于 2010-12-21T21:31:27.190 に答える