2

入力ファイルが zip ファイル内の csv であるストリーミング ジョブを実行しようとしています。これを使用してみましたが、CDH4 では動作しないようです (エラーが発生しますclass com.cotdp.hadoop.ZipFileInputFormat not org.apache.hadoop.mapred.InputFormat) 。

zip ファイルのストリーミングに使用できる入力ファイル リーダーを知っている人はいますか? 可能であれば、マルチファイル リーダー (最上位ディレクトリを指定できる) を探しています。

4

2 に答える 2

1

結局zipstreamを書きました。

zip の最初のファイルのみを処理することに注意してください。後で複数のファイルのサポートを追加する予定です。

于 2013-03-07T19:36:13.070 に答える
0

入力形式には 2 つの Hadoop API があります。mapred.InputFormat、および mapreduce.InputFormat です。

mapreduce は新しい API であり、可能であれば使用する必要があります。

ZipInputFormat が実際にどの InputFormat を実装しているかを確認します。mapreduce バージョンを実装している場合は、ジョブをこの 2 番目の API に移行する必要があります。

少し背景を説明すると、Hadoop の以前のバージョンでは、'mapred' が廃止され、より新しく、より高速で、よりクリーンな実装である 'mapreduce' が採用されました。残念ながら、この新しい API には古い API のすべての機能が含まれていませんでした。そのため、Hadoop の最近のバージョンでは「mapred」が復活し、現在では基本的に同じことを行う 2 つの API があります。

于 2013-03-07T15:15:23.363 に答える