java - MapReduce: ストリーミングマッパーは、どのファイルデータから来たものかをどのように知ることができますか?

翻译自：https://stackoverflow.com/questions/19283481 2013-10-09T21:53:17.780

84 次

MapReduceを学んでいます。2 つのファイル (結合する 2 つのデータセットを含む) からデータを取り込む「結合」アルゴリズムをセットアップするためのテストとして試みています。

これが機能するためには、マッパーは各行がどのファイルからのものかを知る必要があります。このようにして、レデューサーが (たとえば) あるデータセットの要素を同じセットの他の要素に結合しないように、適切にタグを付けることができます。

問題を複雑にするために、私は Hadoop ストリーミングを使用しており、マッパーとリデューサーは Python で記述されています。私は Java を理解していますが、Hadoop の InputFormat クラスと RecordReader クラスのドキュメントは非常に曖昧であり、ストリーミング互換の分割を作成して、ある種のファイル識別子をデータと一緒にバンドルできるようにする方法がわかりません。

私のPythonプログラムが理解できる方法でこの入力処理を設定する方法を説明できる人はいますか?

java - MapReduce: ストリーミング マッパーは、どのファイル データから来たものかをどのように知ることができますか?

1 に答える 1

Related

Reference

java - MapReduce: ストリーミングマッパーは、どのファイルデータから来たものかをどのように知ることができますか?