各行がレコードであるファイルがあります。特定のフィールド (フィールド A の場合に呼び出す) に同じ値を持つすべてのレコードが同じマッパーに送られるようにします。これは Map-Side Join と呼ばれていると聞いたことがありますが、ファイル内のレコードがフィールド A と呼ばれるもので並べ替えられていると簡単だとも聞きました。
より簡単な場合は、データを複数のファイルに分散することができますが、各ファイルはフィールド A で並べ替えられます。
これは正しいですか?ストリーミングでこれを行うにはどうすればよいですか? 私はPythonを使用しています。Hadoop を起動するために使用するコマンドの一部だと思いますか?