0

こんにちは、Git リポジトリで map reduce ジョブを実行しようとしています。map ジョブを使用して、最初にすべてのリポジトリを hdfs に同時に複製し、次にファイルに対してさらに map reduce ジョブを実行したいと考えていました。リポジトリファイルをhdfsに書き込む方法がわからないという問題が発生しています。個々のファイルを書き込む例を見てきましたが、それらはマッパーの外部にあり、単一のファイルのみを書き込みます。jgit API は file から継承する filerepository 構造のみを公開しますが、hdfs は dataoutputstreams として記述されたパスを使用します。2つまたは同様のことを行う例を変換する良い方法はありますか?

ありがとう

4

1 に答える 1

1

Hadoop Mapper への入力データは、ローカル マシンや HDFS 以外ではなく、HDFS 上にある必要があります。Map-reduce ジョブは、ある場所から別の場所にデータを移行するためのものではありません。これらは、HDFS に存在する大量のデータを処理するために使用されます。リポジトリ データが HDFS ではないことは確かです。HDFS である場合は、最初から操作を実行する必要はありません。そのため、 map-reduce ジョブは、HDFS (Hadoop ファイル システム) に既に存在する大量のデータを処理するために使用されることに注意してください。

于 2013-03-21T17:09:55.493 に答える