問題タブ [hadoop-partitioning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop の分散キャッシュ ファイル プログラムが出力を生成しない
ファイルから特許データを読み取り、他の国がその特許を引用しているかどうかを確認することを目的とする単純なプログラムを設計しようとして'Hadoop in Action'
い'chuck Lam'
ますadvanced map/reduce programming
。
セットアップした Hadoop ディストリビューションはで、 を使用Local Node
して でプログラムを実行しています。Windows environment
cygwin
http://www.nber.org/patents/
これは、ファイル :apat63_99.txt
およびをダウンロードした URLですcite75_99.txt
。
'apat63_99.txt'
分散キャッシュ ファイルとして使用しており、コマンド ライン パラメーターから渡し'cite75_99.txt'
たフォルダー内にあります。input
問題は、プログラムが出力を生成していないことです。表示されている出力ファイルにはデータが含まれていません。
マッパー フェーズとリデューサー フェーズの出力を試しましたが、どちらも空白です。
このタスクのために開発したコードは次のとおりです。
ツールはEclipse
で、Hadoop's version
使用しているものは です1.2.1
。
これらは、ジョブを実行するためのコマンド ライン パラメーターです。
これは、プログラムの実行中に生成されるトレースです。
重要な情報を見逃した場合に備えて、どこが間違っているのかお知らせください。
感謝と敬意
java - Hadoop パーティショニングのマップ タスク
ライン リーダーを使用して入力を分割した Hadoop Map Reduce ジョブがあります。
マップ入力レコード = 10。
ラインリーダー分割を識別するLongWritableキーに基づいてマップタスク出力を分割することは可能ですか?
そうでない場合 - 各マップ タスクの出力を分割する別の方法はありますか?
java - hadoop-env.sh に関する質問
私はエラーに直面しています:Javaヒープスペースとエラー:GCオーバーヘッド制限を超えました
それで、hadoop-env.sh を調べ始めました。
これまでのところ私が理解していることです。間違っている場合は修正してください。
これにより、データノードで datanode デーモンと tasktracker デーモンが呼び出され、それぞれに 7GB のメモリが割り当てられます (datanode(7GB)+ tasktracker(7GB) = 14GB)。
と
したがって、これは 1GB のメモリで 9 つの子 JVM を呼び出すので、合計で 9GB になります。
しかし、tasktracker は 7GB のメモリで呼び出されるため、競合が発生します。tasktracker と tasktracker によって呼び出される子 JVMS の最大メモリは 7GB ですが、9G を消費しています。
ヒープ領域エラーが発生しましたが、私の計算は正しいですか?
hadoop - Map-reduce ジョブでキーのハッシュコードを既に実装している場合、customPartitioner は役に立ちますか?
実装せずにカスタムkey
クラスを作成しています。hashCode
ジョブを実行しmap-reduce
ますが、ジョブの構成中にpartitoner
次のようなクラスを設定します。
partitioner
実装は次のとおりです。
map-reduce
ジョブを実行し、出力を保存します。
job.setPartitionerClass(TaggedJoiningPartitioner.class);
ここで、上記のジョブ設定でコメントアウトします。
hashCode()
次のようなカスタムクラスに実装しました:
ここで、ジョブを再度実行します (注: セットはありませんpartitoner
)。map-reduce ジョブの後、前の出力を比較します。どちらもまったく同じです。
だから私の質問は:
hadoop - Hive で「CREATE TABLE AS SELECT .....」を使用して作成されたテーブルをクラスター化/バケット化できますか?
Hiveでテーブルを作成しようとしています
この構文は失敗していますが、この組み合わせステートメントを実行できるかどうかはわかりません。何か案は?
hadoop - 通話詳細レコードのデータを処理できるように、hadoop を実装する必要がありますか?
HDFS、Datanode、namenode、および hbase を構成しました。CDR csv ファイルを HDFS に保存しました。では、どうすればそれを Hbase にマップして、処理できるように準備できるのでしょうか?
hadoop - hbase でのクラッシュ後にプライマリにデータを保存する方法
私はHBaseの初心者です。マスター リージョンとセカンダリ リージョンがあるとします。
いくつかの外的要因により、プライマリ リージョンが数時間ダウンしたと仮定してください。プライマリ サーバーが正常な状態に戻った場合。
プライマリ リージョンのオフライン中に読み込まれたデータの一部が失われた可能性があります。したがって、欠落したジョブをロードするためにプライマリ サーバーを同期する方法は次のとおりです。
前もって感謝します!!
hadoop - Linux 64 ビット マシンに hadoop-2.2.0 をインストールする際の問題
このリンクを使用して、Hadoop バージョン - 2.2.0 (単一ノード クラスター) を ubuntu 12.04 (64 ビット マシン) にインストールしようとしました
http://bigdatahandler.com/hadoop-hdfs/installing-single-node-hadoop-2-2-0-on-ubuntu/
次のコマンドを使用してnamenodeを介してhdfsファイルシステムをフォーマットしている間
私がそれをしているときに、次の問題が発生します。
14/08/07 10:38:39 FATAL namenode.NameNode: namenode 結合の例外 java.lang.RuntimeException: org.xml.sax.SAXParseException; systemId: ファイル:/usr/local/hadoop/etc/hadoop/mapred-site.xml; 行番号: 27; 列番号: 1; 末尾のセクションにコンテンツを含めることはできません。
次の問題を解決するために何をする必要がありますか?
Mapred-site.xml: