join - Hadoop ストリーミングによるマップ側結合

Question

各行がレコードであるファイルがあります。特定のフィールド (フィールド A の場合に呼び出す) に同じ値を持つすべてのレコードが同じマッパーに送られるようにします。これは Map-Side Join と呼ばれていると聞いたことがありますが、ファイル内のレコードがフィールド A と呼ばれるもので並べ替えられていると簡単だとも聞きました。

より簡単な場合は、データを複数のファイルに分散することができますが、各ファイルはフィールド A で並べ替えられます。

これは正しいですか？ストリーミングでこれを行うにはどうすればよいですか? 私はPythonを使用しています。Hadoop を起動するために使用するコマンドの一部だと思いますか?

score 0 · Accepted Answer

特定のレコードだけを特定のマッパーに渡してほしいという本当の理由は何ですか? ここから最終結果を 3 つの出力ファイル (1 つはすべて A、もう 1 つはすべて B、最後はすべて C) にしたい場合は、複数のレデューサーを使用してそれを実現できます。自分が本当にやりたいことを知る必要があります。

join - Hadoop ストリーミングによるマップ側結合

1 に答える 1

Related

Reference