“hadoop-partitioning”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

853 参照

hadoop - hadoop mapreduce パーティショナーが呼び出されない

カスタムパーティショナーが呼び出されません。何百万回もすべてをチェックしましたが、結果はありませんでした。少し前までは機能していましたが、なぜ現在機能していないのかわかりません。どんな助けでも大歓迎です。
コードを追加しています（非常に簡単なケースでは、入力としてのカスタムキーでも機能しません）。
マッパーは正しい値を 100% 出力し、パーティショナーはスキップされます。

事前にどうもありがとう、
アレックス

2014-03-06T09:58:31.043

0 投票する

1 に答える

289 参照

hadoop - HDInsight Azure Blob Storage データの更新

Hive と Azure Blob Storage に読み込まれたデータを備えた HDInsight を検討しています。
過去のデータと変化するデータの両方が組み合わされています。Update に
記載されているソリューション、Hive の SET オプションはBLOB ストレージでも機能しますか? 以下の Hive ステートメントは、私の要件でもあるブロブストレージ内のデータを変更しますか?

hadoop hive azure-hdinsight hadoop-partitioning azure-blob-storage

2014-03-26T10:02:54.753

0 投票する

2 に答える

416 参照

hadoop - Hadoop in action 特許事例解説

Hadoop で実際に使用されている特許データの例を調べていました。使用されているデータセットについて詳しく説明していただけますか?

特許引用データセット
このデータセットには、引用特許と被引用特許の 2 つの列が含まれています。引用列は、特許を提出した所有者 ID を参照しますか? 被引用列は、2 番目のデータセットのキーとなる特許 ID を参照していますか?
特許明細書データセット
このデータセットにはいくつかのフィールドがあります。この 2 つのデータセットのマッピングを形成するには、2 番目のデータセットの最初の列 (特許) に対応するキーを持つ最初のデータセットの列を引用または引用しますか?

hadoop hadoop-streaming hadoop-partitioning

2014-04-03T02:18:16.550

0 投票する

1 に答える

250 参照

java - Hadoop Map タスク/Map オブジェクト

理論によると、次のプロパティは、データノードでマップ/赤いタスクスロットの数を定義することです。 mapred.tasktracker.map.tasks.maximum | mapred.map.tasks.

また、マッパーオブジェクトの数は、MapReduce ジョブの入力分割の数によって決まります。map/red 関数を実装し、フレームワークがオブジェクトを作成して、データブロックの最も近くに送信します。

マップタスクスロットとフレームワークによって作成されたマッパーオブジェクトの違いは何ですか。

各ノードが 400Mb の 5 つのデータノードに 2TB のファイルを保存しているとします。i を定義するdfs.block.size =100Mbと、各ノードは 400/100 = 4 データブロックを保持します。ここでは、4 つのデータブロックのうち、理想的には 4 つの入力分割と、ノードごとに 4 つのマッパーオブジェクトを持つことができます。同時にmapred.tasktracker.map.tasks.maximum = 2&を定義するとmapred.map.tasks=2、そこからどのような結論を導き出すことができますか。4 つのマッパーオブジェクトが 2 つのマップタスクスロットで共有されると言えますか。私は間違った方向に進んでいる可能性があります。明確化が役立つでしょう。

java hadoop mapreduce hadoop-streaming hadoop-partitioning

2014-04-21T15:26:12.437

0 投票する

2 に答える

3115 参照

hadoop - レデューサーの出力は HDFS に送信されますが、マップの出力はデータノードのローカルディスクに格納されますか?

HDFS ストレージとデータノードストレージについて少し混乱しています。以下、私の疑問です。

Map 関数の出力はデータノードのローカルディスクに保存され、リデューサーの出力は HDFS に送信されます。データブロックがデータノードのローカルディスクに格納されていることは周知の事実ですが、データノードの HDFS に使用できる他のディスク領域はありますか??
レデューサー出力ファイル (part-nnnnn-r-00001) の物理的な保存場所は? 名前ノードのハードディスクに保存されますか?

したがって、データノードは HDFS の一部であると仮定し、データノードのローカルディスクも HDFS の一部であると仮定します。

よろしくSuresh

hadoop hadoop-streaming hadoop-partitioning hadoop2

2014-04-22T11:32:20.553

0 投票する

3 に答える

8102 参照

hadoop - ノード内の namenode を検索する hadoop コマンド

私は試した

手順

結果

これは正常に機能していますが、ノード内のnamenodeを見つけるための他のコマンドを知っています

hadoop hadoop-streaming hadoop-partitioning

2014-05-21T05:29:59.883

0 投票する

2 に答える

180 参照

mysql - Hadoop からの mysql レコードの更新

iTunes EPF ファイルを読み取り、それらのレコードを mysql データベーステーブルに挿入するプロセスを完了しました。

レコードを挿入する前に、指定されたレコードがデータベースに存在するかどうかを確認する必要があります。レコードが存在しない場合は、レコードを挿入します。ただし、レコードがデータベースに既に存在する場合は、mysql で対応するレコードを更新する必要があります。

mysql でレコードの存在を確認する方法。このチェックはMapperまたはReducerクラスで実行できるかどうか..？同様に、レコードが存在する場合、レコードを更新する方法。

mysql hadoop hadoop-streaming hadoop-plugins hadoop-partitioning

2014-06-06T11:23:44.660

0 投票する

0 に答える

990 参照

hadoop - インデックスを使用した HIVE テーブルのパフォーマンスチューニング - 動作と問題?

3列のexternalハイブテーブルがあります-abc

遅延再構築を使用したステートメントの一部としてCOMPACT index、列にを作成しました。c1create index

今、私はalter index on abc with rebuild; 私のインデックステーブルにはオフセットとデータがロードされます。

ここに私の質問があります：

1)abcパフォーマンスの向上を確認するには、ベーステーブルに対してクエリを実行する必要がありますか?

2) 新しいインデックステーブルに対してクエリを実行する必要がありますか?

3) 設定するプロパティはこれだけset hive.optimize.index.filter=trueですか?

column にインデックスを付けたにもかかわらず、 columnにフィルター条件を指定してc1テーブルに対してクエリを実行しても、パフォーマンスの向上は見られません。計画でも、インデックスを使用するケースは示されていません。abcc1explain

どうした？誰かが私を案内してくれますか、ありがとう。

hadoop hive hiveql hadoop-partitioning

2014-06-13T21:04:48.740

0 投票する

2 に答える

5797 参照

hadoop - Hadoop にハードディスクを追加する方法

Ubuntu 14.04 に Hadoop 2.4 をインストールしましたが、現在、既存のクラスターに内部 sata HD を追加しようとしています。

新しい hd を /mnt/hadoop にマウントし、その所有権を hadoop ユーザーに割り当てました

次に、次のように構成ファイルに追加しようとしました。

その後、hdfs を開始しました。

2番目のhdを起動しないようです

これは私のcore-site.xmlです

さらに、namenode を更新しようとしたところ、接続の問題が発生しました。

さらに、Hadoop Web インターフェイスに接続できません。私は2つの関連する問題を抱えているようです：

これらの問題は関連していますか? これらの問題を解決するにはどうすればよいですか?

ありがとう

編集

localhost に ping を実行すると、localhost:50090/status.jsp にアクセスできます。

しかし、50030 と 50070 にアクセスできません。

hadoop hadoop-partitioning hadoop2

2014-06-16T09:32:35.420

問題タブ [hadoop-partitioning]

Reference