マップ側の結合が実際に結合できるパスの最大数はいくつですか?
私はn個のフォルダを持っています-path/to / folder1、path / to / folder2、path / to / folder3 .... so on path / to / folder in HDFS
path / to / folder1には、part-1、part-2、part-3などの3つのファイルが含まれています。同様に、残りのすべてのフォルダーには、folder1と同じ名前の3つのファイルがあります。
以下のようにマップ側結合を使用してこれらのフォルダを結合したい
pathToJoin <-path / to / folder1、path / to / folder2、path / to / folder3 .... so on path / to / folder * n *
文字列joinStmt=CompositeInputFormat.compose( "outer"、TextInputFormat、pathsToJoin);
conf.set( "mapred.join.expr"、joinStmt);
各フォルダーに3つのファイルがあるため、ジョブは3つのマップタスクを生成します(1つのマッパーに結合されたすべてのパート1ファイルのコンテンツ、2番目のマッパーへのすべてのパート2ファイルのコンテンツ、および3番目のマッパーへのすべてのパート3ファイルのコンテンツ) )しかし、ここでnの最大値は何であるか知りたいですか?