問題タブ [hadoop]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

43716 問題

0 投票する

2 に答える

1253 参照

java - HadoopでRubyレデューサーを並列化していますか？

Rubyの単純な単語数リデューサーは次のようになります。

STDINにすべてのマッパーの中間値を取得します。特定のキーからではありません。したがって、実際には、すべてに対して1つのレデューサーしかありません（単語ごとまたは単語のセットごとにレデューサーはありません）。

ただし、Javaの例では、キーと値のリストをinoutとして取得するこのインターフェースを見ました。つまり、中間マップ値は、reducedとreducerを並行して実行する前に、キーごとにグループ化されます。

これはJavaのみの機能ですか？または、Rubyを使用したHadoopストリーミングでそれを行うことはできますか？

2009-05-08T11:15:42.160

0 投票する

2 に答える

9720 参照

hadoop - Hadoopストリーミングジョブの出力ファイル名とコンテンツを制御するにはどうすればよいですか？

Hadoopストリーミングジョブの出力ファイル名を制御する方法はありますか？具体的には、ジョブの出力ファイルの内容と名前を、レデューサーが出力するketごとに整理する必要があります。各ファイルには1つのキーの値のみが含まれ、その名前がキーになります。

更新：答えが見つかりました-ジョブの出力形式としてMultipleOutputFormatから派生したJavaクラスを使用すると、出力ファイル名を制御できます。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html

このためのサンプルは見たことがありません...カスタム出力形式のJavaクラスを使用するHadoopストリーミングサンプルを誰かが指摘できますか？

hadoop mapreduce distributed-computing

2009-05-20T13:18:43.170

0 投票する

1 に答える

257 参照

search - ナッチ検索は常に0件の結果を返します

クラスタにnutch1.0を設定しました。セットアップが完了し、正常にクロールされました。dfs-copyToLocalを使用してクロールディレクトリをコピーし、tomcatディレクトリにあるnutch-site.xmlファイルのsearcher.dirの値をそのディレクトリを指すように設定しました。それでも検索しようとすると、0件の結果が表示されます。

どんな助けでも大歓迎です。

search tomcat hadoop nutch

darbour

2009-06-04T19:44:22.560

0 投票する

5 に答える

7059 参照

hardware - Hadoopクラスター。2台の高速、4台の中型、8台の低速のマシン？

Hadoopクラスター専用に使用する新しいハードウェアを購入する予定ですが、購入する必要があるものに固執しています。予算が5,000ドルだとすると、2台の非常に優れたマシンを1台あたり2500ドルで、4台を1台あたり約1200ドルで、8台をそれぞれ約600ドルで購入する必要がありますか？Hadoopは、低速のマシンでうまく機能しますか、それともはるかに高速なマシンで動作しますか？または、ほとんどのもののように「それは依存します」？:-)

hardware hadoop

2009-06-10T15:14:49.087

0 投票する

2 に答える

6448 参照

hadoop - Hadoop ストリーミングジョブで Priority\Pool を設定するにはどうすればよいですか?

Hadoop ストリーミングジョブの Priority\Pool を設定するにはどうすればよいですか? おそらくコマンドラインのjobconfパラメーター（例：-jobconf something=pool.name）ですが、このオンラインに関するドキュメントを見つけることができませんでした...

hadoop

2009-06-15T16:05:54.853

0 投票する

4 に答える

4109 参照

hadoop - Hadoop との間でデータを取得する

大きなログファイルを分析するシステムが必要です。先日、友人から Hadoop を使うように指示されましたが、これは私のニーズにぴったりのようです。私の質問は、データを Hadoop に取り込むことに関するものです。

HDFS にデータを取得する際に、クラスター上のノードにデータをストリーミングさせることは可能ですか? それとも、各ノードがローカルの一時ファイルに書き込み、特定のサイズに達した後に一時ファイルを送信する必要がありますか? HDFS のファイルに追加すると同時に、同じファイルに対してクエリ/ジョブを実行することは可能ですか?

hadoop

razor

2009-07-06T17:24:03.753

0 投票する

3 に答える

2336 参照

hadoop - Hadoop でのヘッダー付きファイルの処理

Hadoop で多くのファイルを処理したいと考えています。各ファイルにはいくつかのヘッダー情報があり、その後に多数のレコードが続き、それぞれが一定のバイト数で格納されています。それに関する提案はありますか？

hadoop

David Rosenberg

2009-07-09T14:43:33.933

0 投票する

5 に答える

1447 参照

jdbc - hadoopハイブの質問

JDBCを使用して実用的にテーブルを作成しようとしています。ただし、ハイブシェルから作成したテーブルは実際には表示されません。さらに悪いことに、異なるディレクトリからハイブシェルにアクセスすると、データベースの結果が異なります。設定する必要のある設定はありますか？

前もって感謝します。

jdbc hadoop hive

2009-07-17T05:37:24.557

1 2 3 4 5 6 7 8 9 10

問題タブ [hadoop]

Reference