問題タブ [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - HadoopでRubyレデューサーを並列化していますか?
Rubyの単純な単語数リデューサーは次のようになります。
STDINにすべてのマッパーの中間値を取得します。特定のキーからではありません。したがって、実際には、すべてに対して1つのレデューサーしかありません(単語ごとまたは単語のセットごとにレデューサーはありません)。
ただし、Javaの例では、キーと値のリストをinoutとして取得するこのインターフェースを見ました。つまり、中間マップ値は、reducedとreducerを並行して実行する前に、キーごとにグループ化されます。
これはJavaのみの機能ですか?または、Rubyを使用したHadoopストリーミングでそれを行うことはできますか?
hadoop - Hadoopストリーミングジョブの出力ファイル名とコンテンツを制御するにはどうすればよいですか?
Hadoopストリーミングジョブの出力ファイル名を制御する方法はありますか?具体的には、ジョブの出力ファイルの内容と名前を、レデューサーが出力するketごとに整理する必要があります。各ファイルには1つのキーの値のみが含まれ、その名前がキーになります。
更新:答えが見つかりました-ジョブの出力形式としてMultipleOutputFormatから派生したJavaクラスを使用すると、出力ファイル名を制御できます。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html
このためのサンプルは見たことがありません...カスタム出力形式のJavaクラスを使用するHadoopストリーミングサンプルを誰かが指摘できますか?
search - ナッチ検索は常に0件の結果を返します
クラスタにnutch1.0を設定しました。セットアップが完了し、正常にクロールされました。dfs-copyToLocalを使用してクロールディレクトリをコピーし、tomcatディレクトリにあるnutch-site.xmlファイルのsearcher.dirの値をそのディレクトリを指すように設定しました。それでも検索しようとすると、0件の結果が表示されます。
どんな助けでも大歓迎です。
hardware - Hadoopクラスター。2台の高速、4台の中型、8台の低速のマシン?
Hadoopクラスター専用に使用する新しいハードウェアを購入する予定ですが、購入する必要があるものに固執しています。予算が5,000ドルだとすると、2台の非常に優れたマシンを1台あたり2500ドルで、4台を1台あたり約1200ドルで、8台をそれぞれ約600ドルで購入する必要がありますか?Hadoopは、低速のマシンでうまく機能しますか、それともはるかに高速なマシンで動作しますか?または、ほとんどのもののように「それは依存します」?:-)
hadoop - Hadoop ストリーミング ジョブで Priority\Pool を設定するにはどうすればよいですか?
Hadoop ストリーミング ジョブの Priority\Pool を設定するにはどうすればよいですか? おそらくコマンドラインのjobconfパラメーター(例:-jobconf something=pool.name)ですが、このオンラインに関するドキュメントを見つけることができませんでした...
hadoop - Hadoop との間でデータを取得する
大きなログ ファイルを分析するシステムが必要です。先日、友人から Hadoop を使うように指示されましたが、これは私のニーズにぴったりのようです。私の質問は、データを Hadoop に取り込むことに関するものです。
HDFS にデータを取得する際に、クラスター上のノードにデータをストリーミングさせることは可能ですか? それとも、各ノードがローカルの一時ファイルに書き込み、特定のサイズに達した後に一時ファイルを送信する必要がありますか? HDFS のファイルに追加すると同時に、同じファイルに対してクエリ/ジョブを実行することは可能ですか?
hadoop - Hadoop でのヘッダー付きファイルの処理
Hadoop で多くのファイルを処理したいと考えています。各ファイルにはいくつかのヘッダー情報があり、その後に多数のレコードが続き、それぞれが一定のバイト数で格納されています。それに関する提案はありますか?
jdbc - hadoopハイブの質問
JDBCを使用して実用的にテーブルを作成しようとしています。ただし、ハイブシェルから作成したテーブルは実際には表示されません。さらに悪いことに、異なるディレクトリからハイブシェルにアクセスすると、データベースの結果が異なります。設定する必要のある設定はありますか?
前もって感謝します。