問題タブ [hadoop2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop 分散キャッシュのファイルはディレクトリとして表示されます
Hadoop で DistributedCache を使用する場合、次のようにドライバ クラスで hdfs からファイルをプッシュできます。
次に、Mapper の setup() でファイルを読み取るために、次のようにします。
ファイルは、パス /tmp/solr-map-reduce/yarn-local-dirs/usercache/user/appcache/application_1398146231614_0045/container_1398146231614_0045_01_000004/file.txt の下のキャッシュにあります。しかし、それを読むと、IOException: file is a directory が発生します。
どうすればこれを解決できますか?
hadoop - Hadoop の複数のレデューサーから単一のファイルに書き込む
Hadoop を使用して Kmeans を実行しようとしています。Reducer の cleanup メソッドで計算されたクラスターの重心をいくつかのファイルに保存したいと思いますcentroids.txt
。ここで、複数のレデューサーのクリーンアップ メソッドが同時に開始され、それらすべてが同時にこのファイルに書き込もうとするとどうなるかを知りたいと思います。内部で処理されますか?そうでない場合、このタスクを同期する方法はありますか?
これはレデューサーの私の出力ファイルではないことに注意してください。これは、重心を追跡するために私が維持している追加のファイルです。これを行うために、レデューサーのクリーンアップ メソッドから BufferedWriter を使用しています。
hadoop - Hadoop 2.0 スケジューラはマルチユーザー シナリオでのみ機能しますか?
Fair および Capacity スケジューラは、複数のユーザーが異なるジョブを送信している場合にのみ機能しますか? それとも、1 人のユーザーから送信されたジョブにも取り組んでいますか?
ありがとう
hadoop - Mapreduce にコマンド ライン パラメーターを渡す
map reduce に新しい API を使用して、通常の expession を -D コマンド ライン パラメーターとして使用しようとしていますが、取得されません。その結果、Pattern.compile(pattern) はNullPointerException
私のマッパーコードは;
そして私のコントローラーコードは;
}
最後に、私が行っているコマンド ライン呼び出しは次のとおりです。
構成パラメーター mapper.pattern を取得できない理由はありますか?
hadoop - Hadoop のカスタム カウンターの代替テキスト
次のカウンターが定義されています
そして、それらは以下のように表示されます
これらに代替テキストを使用するメカニズムがあるかどうか疑問に思っています。たとえば、カウンター グループをFQCN ではなく、Bad Record Countersとして読み取る必要があります。
hadoop - MapReduce - 各学生について、学生が最も多くの投稿を投稿した時間は何時ですか
Hadoop に SO レコードのダンプがあります。次の質問に答える良い方法は何だろうと思っています
サンプルレコード
私の最初のカット
キー = userid_hour
これで、各ユーザーの投稿数が 1 時間ごとにわかるようになりました。次に、このデータを後処理して、ユーザーごとの最大数を選択し、最もアクティブな時間を確認する必要があります。
質問
これを簡素化するために必要な他の選択肢は何ですか?