問題タブ [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Apache Hive のビルド - 依存関係を解決できない
http://wiki.apache.org/hadoop/Hive/GettingStartedに従って Apache Hive を試していますが、Ivy から次のエラーが発生しています。
このエラーは、Hadoop の 4 つの異なるバージョンで 4 回繰り返され、ビルドが停止します。
2 つの質問があります。
- これらのファイルを手動でダウンロードしてビルドに渡すにはどうすればよいですか?
- バイナリをビルドするためだけに、Hive が 4 つの異なるバージョンの Hadoop をダウンロードする必要があるのはなぜですか?
hadoop - HBase からの Hadoop mapreduce ストリーミング
HBase (0.20.1) をデータ ソースとデータ シンクの両方として使用する Hadoop (0.20.1) mapreduce ジョブを作成しています。Python スクリプトとの間でデータをストリーミングするために hadoop-0.20.1-streaming.jar を使用する必要がある Python でジョブを作成したいと考えています。データ ソース/シンクが HDFS ファイルの場合、これは正常に機能します。
Hadoop は mapreduce の HBase との間のストリーミングをサポートしていますか?
java - リモートシステムで実行を並列化する方法
一連のリモートマシンに作業を割り当てるための良い方法は何ですか?タスクがCPUとRAMを非常に集中的に使用するが、実際には大きなデータセットを処理しない例を考えてみます。選択する言語はJavaです。Hadoopは良い選択肢だと思っていましたが、リモートマシン間で渡されるデータセットはかなり小さく、Hadoopは作業の分散ではなくデータの分散に主に焦点を当てているようです。
役立つことができるいくつかの良い技術は何ですか?
編集:私は主に負荷分散に興味があります。小さい(<3MB)データセットを使用する一連のジョブがありますが、かなりの処理とメモリが必要です。
hadoop - hadoop- ファイルが書き込まれているかどうかを判別する
Hadoop のファイルが書き込まれているかどうかを判断する方法はありますか? 例- ログを hdfs に入れるプロセスがあります。hdfs に新しいログが存在するかどうかを監視する別のプロセスがありますが、処理する前に、ファイルが hdfs に完全にアップロードされていることを確認したいと考えています。このようなことは可能ですか?
java - Hadoop:間隔とJOIN
私はHadoopを初めて使用し、現在、キーが間隔である2つのデータソース([date-begin / date-end]など)を結合しようとしています。例えば:
input1:
input2:
key1がkey2とオーバーラップしているすべてのレコードを検索したいと思います。Hadoopで可能ですか?実装例はどこにありますか?
ありがとう。
python - HTML タグを含むファイルに対する Hadoop MapReduce ジョブ
大量の大きな HTML ファイルがあり、それらに対して Hadoop MapReduce ジョブを実行して、最も頻繁に使用される単語を見つけたいと考えています。マッパーとリデューサーの両方を Python で作成し、Hadoop ストリーミングを使用してそれらを実行しました。
これが私のマッパーです:
これが私のレデューサーです:
「hello world hello hello world ...」のような小さなサンプルの小さな文字列をパイプするだけで、ランク付けされたリストの適切な出力が得られます。ただし、小さな HTML ファイルを使用しようとして、cat を使用して HTML をマッパーにパイプしようとすると、次のエラーが発生します (input2 には HTML コードが含まれています)。
なぜ私がこれを取得しているのか、誰か説明できますか? また、MapReduce ジョブ プログラムをデバッグする良い方法は何ですか?
hadoop - map() と reduce() は同じ型のキーと値のペアを返す必要がありますか?
MapReduce ジョブ (関連する場合は具体的には Hadoop) を作成するときは、キーと値のペアのシーケンスを生成するmap()
と関数を定義する必要があります。reduce()
キーと値のデータ型は、アプリケーションで自由に定義できます。
(string, int)
単語カウントの標準的な例では、両方の関数が、キーが単語であり、値が出現回数である型のペアを生成します。ここでは、私が見た他のすべての例と同様に、出力されたキーと値の型は 2 つの関数間で一貫しています。
MapReduce のアプリケーション内で生成されたキーmap()
と値のペアの型は同じである必要がありますか? reduce()
はいの場合:なぜですか?