1

各行がレコードであるファイルがあります。特定のフィールド (フィールド A の場合に呼び出す) に同じ値を持つすべてのレコードが同じマッパーに送られるようにします。これは Map-Side Join と呼ばれていると聞いたことがありますが、ファイル内のレコードがフィールド A と呼ばれるもので並べ替えられていると簡単だとも聞きました。

より簡単な場合は、データを複数のファイルに分散することができますが、各ファイルはフィールド A で並べ替えられます。

これは正しいですか?ストリーミングでこれを行うにはどうすればよいですか? 私はPythonを使用しています。Hadoop を起動するために使用するコマンドの一部だと思いますか?

4

1 に答える 1

0

特定のレコードだけを特定のマッパーに渡してほしいという本当の理由は何ですか? ここから最終結果を 3 つの出力ファイル (1 つはすべて A、もう 1 つはすべて B、最後はすべて C) にしたい場合は、複数のレデューサーを使用してそれを実現できます。自分が本当にやりたいことを知る必要があります。

于 2012-12-02T04:39:03.077 に答える