MapReduceを学んでいます。2 つのファイル (結合する 2 つのデータ セットを含む) からデータを取り込む「結合」アルゴリズムをセットアップするためのテストとして試みています。
これが機能するためには、マッパーは各行がどのファイルからのものかを知る必要があります。このようにして、レデューサーが (たとえば) あるデータ セットの要素を同じセットの他の要素に結合しないように、適切にタグを付けることができます。
問題を複雑にするために、私は Hadoop ストリーミングを使用しており、マッパーとリデューサーは Python で記述されています。私は Java を理解していますが、Hadoop の InputFormat クラスと RecordReader クラスのドキュメントは非常に曖昧であり、ストリーミング互換の分割を作成して、ある種のファイル識別子をデータと一緒にバンドルできるようにする方法がわかりません。
私のPythonプログラムが理解できる方法でこの入力処理を設定する方法を説明できる人はいますか?