1

map reduce を使用して、リモート システムから HDFS にデータを転送するアプリケーションがあります。しかし、ネットワーク障害のような問題に対処しなければならないとき、私は道に迷います。つまり、リモート データ ソースからの接続が失われ、mapreduce アプリケーションがデータにアクセスできなくなったときです。いつでもジョブを再開できますが、データが巨大な場合、再起動は高価なオプションです。mapreduce が一時フォルダーを作成することは知っていますが、そこにデータを配置しますか? そのデータを読み取ってから、どうにかして残りのデータの読み取りを開始できますか?

4

2 に答える 2

0

データをHDFS/Hadoopに入力するために使用しているツールを指定していません。

リカバリ可能性をサポートするHDFS/Hadoopにデータを入力するために使用できるツールには、Flume、Scribe、Chukwa(ログファイル用)があり、これらはすべて、さまざまな構成可能なレベルのファイル転送の信頼性保証と、リレーショナルデータベースデータをに転送するためのSqoopをサポートしています。 HDFSまたはHiveなど。

于 2012-12-13T16:03:37.703 に答える