java - Hadoop と jgit は、java.io.file と dataoutputstream の間で変換します

Question

こんにちは、Git リポジトリで map reduce ジョブを実行しようとしています。map ジョブを使用して、最初にすべてのリポジトリを hdfs に同時に複製し、次にファイルに対してさらに map reduce ジョブを実行したいと考えていました。リポジトリファイルをhdfsに書き込む方法がわからないという問題が発生しています。個々のファイルを書き込む例を見てきましたが、それらはマッパーの外部にあり、単一のファイルのみを書き込みます。jgit API は file から継承する filerepository 構造のみを公開しますが、hdfs は dataoutputstreams として記述されたパスを使用します。2つまたは同様のことを行う例を変換する良い方法はありますか?

ありがとう

score 1 · Accepted Answer

Hadoop Mapper への入力データは、ローカルマシンや HDFS 以外ではなく、HDFS 上にある必要があります。Map-reduce ジョブは、ある場所から別の場所にデータを移行するためのものではありません。これらは、HDFS に存在する大量のデータを処理するために使用されます。リポジトリデータが HDFS ではないことは確かです。HDFS である場合は、最初から操作を実行する必要はありません。そのため、 map-reduce ジョブは、HDFS (Hadoop ファイルシステム) に既に存在する大量のデータを処理するために使用されることに注意してください。

java - Hadoop と jgit は、java.io.file と dataoutputstream の間で変換します

1 に答える 1

Related

Reference