問題タブ [hadoop-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoopシーケンシャルファイルを読み取るには?
Hadoop map-reduce ジョブの出力であるシーケンシャル ファイルがあります。このファイルでは、データはキーと値のペアで記述され、値自体はマップです。さらに処理できるように、値を MAP オブジェクトとして読み取りたいと考えています。
プログラムの出力: キーは: [これはキー] 値は: {abc=839177, xyz=548498, lmn=2, pqr=1}
ここでは文字列として値を取得していますが、マップのオブジェクトとして使用したいです。
java - Hadoop でのファイルからの値によるソート
すべての行に文字列、スペース、数字を含むファイルがあります。
例:
数値を降順で並べ替え、その結果を数値にランクを割り当てたファイルに入れる必要があります。したがって、私の出力は、次の形式を含むファイルである必要があります。
誰にもアイデアがありますか?Hadoopでどうすればいいですか? Hadoop で Java を使用しています。
hadoop - Hadoop は本当にデータノードの障害を処理しますか?
当社の Hadoop セットアップでは、データノードがクラッシュした (または) Hadoop がデータノードで応答しない場合、reduce タスクは失敗したノードから読み取ることができずに失敗します (以下の例外)。Hadoop はデータ ノードの障害を処理し、それが Hadoop を作成する主な目的だと思いました。クラスターで同様の問題に直面している人はいますか? 解決策がある場合は、お知らせください。
hadoop - 内部IPを使用したスレーブのホスト名の構成-複数のNIC
私のHadoop環境では、スレーブノードがmap / reduceジョブの途中で通信するときに、ホスト名から取得する外部IPではなく内部IPを使用するようにスレーブノードを構成する必要があります。
ノードが外部IPではなく内部IPを使用して通信するように指定するようにHadoop構成ファイルを設定する方法はありますか?core-site.xml、マスター、およびスレーブファイルの内部IPをすでに使用しています。
私はいくつかの調査を行い、人々が「slave.host.name」パラメーターについて言及しているのを見ましたが、このパラメーターをどの構成ファイルに配置しますか?この問題に対する他の解決策はありますか?
ありがとう!
hadoop - タスクが強制終了されたときに、Hadoop に HDFS から一時ディレクトリを削除しないように指示するにはどうすればよいですか?
デフォルトでは、hadoop マップ タスクは、処理されたレコードを一時ディレクトリのファイルに書き込みます${mapred.output.dir}/_temporary/_${taskid}
。これらのファイルは、FileCommiter が移動するまで${mapred.output.dir}
(タスクが正常に終了した後)、ここに置かれます。マップ タスクで、上記の一時ディレクトリの下にファイルを作成する必要がある場合があります。そこでsetup()
は、後で別の場所で使用されるプロセス関連のデータを書き込みます。ただし、hadoop タスクが強制終了されると、一時ディレクトリが HDFS から削除されます。
タスクが強制終了された後にこのディレクトリを削除しないように Hadoop に指示できるかどうか、またそれを達成する方法を知っている人はいますか? 構成できるプロパティを提供する必要があると思います。
よろしく
mahout - HadoopストリーミングでMahoutで生成されたシーケンスファイルを読み取れません
Mahoutの例の1つによって生成されたシーケンスファイルをストリーミングして、その内容を確認しようとしています。
ジョブは正常に開始され、最終的に次のように終了します。
ストリーミングjarファイルに問題があるのか、IIがこのクラスを持つMahout jarを明示的に指す必要があるのか(HADOOP_CLASSPATHをmahout-core-0.5-cdh3u2.jarの場所に設定しようとしましたが、機能しませんでした)、または多分何か他のもの?
どんな助けでも大歓迎です。ありがとう。
hadoop - Hadoop ストリーミング - ノードごとのマップの最大数を設定する
ノードごとに実行するマップ タスクの数を設定することは可能ですか。
データのクロールに Hadoop ストリーミングを使用しており、ブロックを回避するために必要なマップ タスクはノードごとに 1 つだけです。
ありがとう、
hadoop - Hadoop ストリーミング ジョブをクラスターまたは「ローカル」モードで実行しようとしていることを確認するにはどうすればよいですか?
Hadoop インスタンスがボックスで実行されていない場合、Hadoop ストリーミングは「ローカル」モードでプロセスを実行します。Hadoop ストリーミング ジョブのセットを順番に制御するシェル スクリプトがあり、ジョブがローカルで実行されているかどうかに応じて、HDFS からローカルにファイルをコピーする条件を設定する必要があります。このテストを実行する標準的な方法はありますか? 「ps aux | grep something」を実行できますが、それはその場しのぎのようです。
hadoop - Hadoop での顧客のパーティショニング
のようなレコードを含むファイルがありますchicken
10
。キーおよび値として取得できるようにするの
ではなく、に基づいてデータを分割したいと考えています。/t
chicken
10
メソッドを変更する必要があると思いますがgetPartition
、正しく行うことができません。
誰かがこれの例を持っていますか?
hadoop - Hadoopジョブへの入力としてHadoopSequentilファイルを読み取る方法は?
タイプ「org.apache.hadoop.typedbytes.TypedBytesWritable」のキーと値のペアを持つシーケンシャルファイルがあります。このファイルをHadoopジョブへの入力として提供し、マップでのみ処理する必要があります。つまり、削減が必要なことは何もする必要がないということです。
1)FileInputFormatをSequentialFileとして指定するにはどうすればよいですか?
2)マップ関数のシグネチャは何になりますか。
3)Reduceの代わりにマップから出力を取得するにはどうすればよいですか?