問題タブ [hadoop-partitioning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
95 参照

hadoop - Hadoop で同じサイズの複数の出力ファイルを生成する

レデューサーステップでこれらの範囲をパーティションとして使用できるように、Hadoop で X データ範囲を見つける方法は何ですか?

0 投票する
1 に答える
1137 参照

hadoop - KeyFieldBasedPartitioner を使用した Hadoop ファイルの分割

次のようにフォーマットされた大きなファイルがあります

Hadoop Streaming を使用して、サンプル名に基づいてこのファイルを分割しようとしています。サンプルの数が事前にわかっているので、必要なレデューサーの数を指定できます。この投稿は非常に似たようなことをしているので、これが可能であることはわかっています。

以下のスクリプトを使って、このファイルを 16 個のファイルに分割してみました (サンプルは 16 個あります)。

これはある程度機能します - 一部のファイルにはサンプル名が 1 つしか含まれていません。ただし、ほとんどの part* ファイルは空白で、一部の part* ファイルには複数のサンプル名が含まれています。

すべてのレデューサーが 1 つのサンプル名のみを取得するようにするためのより良い方法はありますか?

0 投票する
2 に答える
1679 参照

hadoop - Hadoop のカスタム パーティショナー

0 から 2 億程度の範囲の ID でキー付けされたデータがいくつかあり、0 から 5 ミル、5 ミルから 10 ミルなどの範囲のドルに分割する必要があります。

コードの最後の部分が次のようになるように、この最後の部分に Hadoop でカスタム パーティショナーを使用しようとしています。

私のパーティショナーは次のようになります。

しかし、それはまったく呼び出されていないようです。戻り行をファイル全体のデータに置き換えてもreturn 1;、デフォルトの動作でハッシュ分散されているようです。

0 投票する
1 に答える
3918 参照

for-loop - 多くのカテゴリを持つ大きな Hive テーブルを分割する方法

行内の一意のアイテムごとにパーティションが作成されるように、ハイブでテーブルをパーティション分割したいと考えています。約 40 億行のテーブルに対して最大 250 のパーティションがあるため、for ループまたは個別のようなものにしたいと考えています。これがコードでの私の考えです(明らかに機能していません)

ALTER TABLE myTable ADD IF NOT EXISTS

PARTITION( myColumn = 個別の myColumn);

または、Hive にある種のループがありますか? これには UDF が必要ですか? 可能であれば、ハイブの回答が望ましいでしょう。

ありがとう。

0 投票する
1 に答える
1026 参照

hadoop - Hadoop コマンドラインの説明

誰かが私にこの構文を説明できますか、

bin/hadoop の直後に jar を使用する理由 hadoop*examples*.jar とはどういう意味ですか? wordcount は仕事の名前ですか、それとも単語数をカウントするように Hadoop に依頼していますか..?

http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/