問題タブ [hadoop-partitioning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
853 参照

hadoop - hadoop mapreduce パーティショナーが呼び出されない


カスタム パーティショナーが呼び出されません。何百万回もすべてをチェックしましたが、結果はありませんでした。少し前までは機能していましたが、なぜ現在機能していないのかわかりません。どんな助けでも大歓迎です。
コードを追加しています(非常に簡単なケースでは、入力としてのカスタムキーでも機能しません)。
マッパーは正しい値を 100% 出力し、パーティショナーはスキップされます。

事前にどうもありがとう、
アレックス

0 投票する
1 に答える
289 参照

hadoop - HDInsight Azure Blob Storage データの更新

Hive と Azure Blob Storage に読み込まれたデータを備えた HDInsight を検討しています。
過去のデータと変化するデータの両方が組み合わされています。Update に
記載されているソリューション、Hive の SET オプションはBLOB ストレージでも機能しますか? 以下の Hive ステートメントは、私の要件でもあるブロブ ストレージ内のデータを変更しますか?

0 投票する
2 に答える
416 参照

hadoop - Hadoop in action 特許事例解説

Hadoop で実際に使用されている特許データの例を調べていました。使用されているデータセットについて詳しく説明していただけますか?

  1. 特許引用データ セット
    このデータ セットには、引用特許と被引用特許の 2 つの列が含まれています。引用列は、特許を提出した所有者 ID を参照しますか? 被引用列は、2 番目のデータ セットのキーとなる特許 ID を参照していますか?

  2. 特許明細書データセット
    このデータセットにはいくつかのフィールドがあります。この 2 つのデータセットのマッピングを形成するには、2 番目のデータセットの最初の列 (特許) に対応するキーを持つ最初のデータ セットの列を引用または引用しますか?

0 投票する
1 に答える
250 参照

java - Hadoop Map タスク/Map オブジェクト

理論によると、次のプロパティは、データ ノードでマップ/赤いタスク スロットの数を定義することです。 mapred.tasktracker.map.tasks.maximum | mapred.map.tasks.

また、マッパー オブジェクトの数は、MapReduce ジョブの入力分割の数によって決まります。map/red 関数を実装し、フレームワークがオブジェクトを作成して、データ ブロックの最も近くに送信します。

マップ タスク スロットとフレームワークによって作成されたマッパー オブジェクトの違いは何ですか。

各ノードが 400Mb の 5 つのデータ ノードに 2TB のファイルを保存しているとします。i を定義するdfs.block.size =100Mbと、各ノードは 400/100 = 4 データ ブロックを保持します。ここでは、4 つのデータ ブロックのうち、理想的には 4 つの入力分割と、ノードごとに 4 つのマッパー オブジェクトを持つことができます。同時にmapred.tasktracker.map.tasks.maximum = 2&を定義するとmapred.map.tasks=2、そこからどのような結論を導き出すことができますか。4 つのマッパー オブジェクトが 2 つのマップ タスク スロットで共有されると言えますか。私は間違った方向に進んでいる可能性があります。明確化が役立つでしょう。

0 投票する
2 に答える
3115 参照

hadoop - レデューサーの出力は HDFS に送信されますが、マップの出力はデータ ノードのローカル ディスクに格納されますか?

HDFS ストレージとデータ ノード ストレージについて少し混乱しています。以下、私の疑問です。

  1. Map 関数の出力はデータ ノードのローカル ディスクに保存され、リデューサーの出力は HDFS に送信されます。データ ブロックがデータ ノードのローカル ディスクに格納されていることは周知の事実ですが、データ ノードの HDFS に使用できる他のディスク領域はありますか??

  2. レデューサー出力ファイル (part-nnnnn-r-00001) の物理的な保存場所は? 名前ノードのハードディスクに保存されますか?

したがって、データノードは HDFS の一部であると仮定し、データノードのローカルディスクも HDFS の一部であると仮定します。

よろしくSuresh

0 投票する
3 に答える
8102 参照

hadoop - ノード内の namenode を検索する hadoop コマンド

私は試した

手順

結果

これは正常に機能していますが、ノード内のnamenodeを見つけるための他のコマンドを知っています

0 投票する
2 に答える
180 参照

mysql - Hadoop からの mysql レコードの更新

iTunes EPF ファイルを読み取り、それらのレコードを mysql データベース テーブルに挿入するプロセスを完了しました。

レコードを挿入する前に指定されたレコードがデータベースに存在するかどうかを確認する必要があります。レコードが存在しない場合は、レコードを挿入します。ただし、レコードがデータベースに既に存在する場合は、mysql で対応するレコードを更新する必要があります。

mysql でレコードの存在を確認する方法。このチェックはMapperまたはReducerクラスで実行できるかどうか..?同様に、レコードが存在する場合、レコードを更新する方法。

0 投票する
0 に答える
990 参照

hadoop - インデックスを使用した HIVE テーブルのパフォーマンス チューニング - 動作と問題?

3列のexternalハイブテーブルがあります-abc

遅延再構築を使用したステートメントの一部としてCOMPACT index、列にを作成しました。c1create index

今、私はalter index on abc with rebuild; 私のインデックステーブルにはオフセットとデータがロードされます。

ここに私の質問があります:

1)abcパフォーマンスの向上を確認するには、ベース テーブルに対してクエリを実行する必要がありますか?

2) 新しいインデックス テーブルに対してクエリを実行する必要がありますか?

3) 設定するプロパティはこれだけset hive.optimize.index.filter=trueですか?

column にインデックスを付けたにもかかわらず、 columnにフィルター条件を指定してc1テーブルに対してクエリを実行しても、パフォーマンスの向上は見られません。計画でも、インデックスを使用するケースは示されていません。abcc1explain

どうした?誰かが私を案内してくれますか、ありがとう。

0 投票する
2 に答える
5797 参照

hadoop - Hadoop にハードディスクを追加する方法

Ubuntu 14.04 に Hadoop 2.4 をインストールしましたが、現在、既存のクラスターに内部 sata HD を追加しようとしています。

新しい hd を /mnt/hadoop にマウントし、その所有権を hadoop ユーザーに割り当てました

次に、次のように構成ファイルに追加しようとしました。

その後、hdfs を開始しました。

2番目のhdを起動しないようです

これは私のcore-site.xmlです

さらに、namenode を更新しようとしたところ、接続の問題が発生しました。

さらに、Hadoop Web インターフェイスに接続できません。私は2つの関連する問題を抱えているようです:

これらの問題は関連していますか? これらの問題を解決するにはどうすればよいですか?

ありがとう

編集

localhost に ping を実行すると、localhost:50090/status.jsp にアクセスできます。

しかし、50030 と 50070 にアクセスできません。