hadoop - Hadoop HDFS の依存関係

Question

Hadoop mapreduce プログラミングモデルでは、ファイルを処理しているとき、ファイルを HDFS ファイルシステムに保持することは必須ですか、それとも他のファイルシステムにファイルを保持しても、mapreduce プログラミングモデルの利点は得られますか?

score 2 · Accepted Answer

マッパーは、の実装から入力データを読み取りますInputFormat。ほとんどの実装はFileInputFormat、ローカルマシンまたは HDFS からデータを読み取るから派生しています。(デフォルトでは、データは HDFS から読み取られ、mapreduce ジョブの結果も HDFS に保存されます。) HDFSInputFormatではない別のデータソースからデータを読み取る場合は、カスタムを記述できます。

TableInputFormatHBase からデータレコードを直接読み取りDBInputFormat、リレーショナルデータベースのデータにアクセスします。特定のポートでネットワークを介して各マシンにデータがストリーミングされるシステムを想像することもできます。はInputFormatポートからデータを読み取り、それを解析してマッピング用の個々のレコードにします。

ただし、あなたの場合、単一または複数のサーバー上の ext4-filesystem にデータがあります。Hadoop 内でこのデータに便利にアクセスするには、最初に HDFS にコピーする必要があります。このようにして、ファイルチャンクが並行して処理されるときに、データの局所性を活用できます。

Yahoo!のチュートリアルを読むことを強くお勧めします。詳細については、このトピックを参照してください。mapreduce 処理のログファイルの収集については、Flumeも参照してください。

score 1 · Accepted Answer

ファイルを別の場所に保持することはできますが、データの局所性の利点が失われます。例えば。AWS を使用している場合は、ファイルを S3 に保存し、Map-reduce コード、Pig、Hive などから直接アクセスできます。

score 0 · Accepted Answer

Apache Haddop を使用するには、HDFS (hadoop ファイルシステム) にファイルが必要です。AWS S3 のように HDFS にはさまざまな抽象タイプがありますが、これらはすべて基本レベルの HDFS ストレージです。

HDFS はクラスターに沿ってデータを分散するため、データは HDFS にある必要があります。マッピングフェーズでは、各 Mapper はそのノードに保存されているデータを調べてから、指定されたチャンクのレデューサーコードを実行している適切なノードにデータを送信します。

HDFS を使用しないと、Hadoop MapReduce を使用できません。

hadoop - Hadoop HDFS の依存関係

3 に答える 3

Related

Reference