問題タブ [hadoop-partitioning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - hadoop mapreduce パーティショナーが呼び出されない
カスタム パーティショナーが呼び出されません。何百万回もすべてをチェックしましたが、結果はありませんでした。少し前までは機能していましたが、なぜ現在機能していないのかわかりません。どんな助けでも大歓迎です。
コードを追加しています(非常に簡単なケースでは、入力としてのカスタムキーでも機能しません)。
マッパーは正しい値を 100% 出力し、パーティショナーはスキップされます。
事前にどうもありがとう、
アレックス
hadoop - HDInsight Azure Blob Storage データの更新
Hive と Azure Blob Storage に読み込まれたデータを備えた HDInsight を検討しています。
過去のデータと変化するデータの両方が組み合わされています。Update に
記載されているソリューション、Hive の SET オプションはBLOB ストレージでも機能しますか?
以下の Hive ステートメントは、私の要件でもあるブロブ ストレージ内のデータを変更しますか?
hadoop - Hadoop in action 特許事例解説
Hadoop で実際に使用されている特許データの例を調べていました。使用されているデータセットについて詳しく説明していただけますか?
特許引用データ セット
このデータ セットには、引用特許と被引用特許の 2 つの列が含まれています。引用列は、特許を提出した所有者 ID を参照しますか? 被引用列は、2 番目のデータ セットのキーとなる特許 ID を参照していますか?特許明細書データセット
このデータセットにはいくつかのフィールドがあります。この 2 つのデータセットのマッピングを形成するには、2 番目のデータセットの最初の列 (特許) に対応するキーを持つ最初のデータ セットの列を引用または引用しますか?
java - Hadoop Map タスク/Map オブジェクト
理論によると、次のプロパティは、データ ノードでマップ/赤いタスク スロットの数を定義することです。
mapred.tasktracker.map.tasks.maximum | mapred.map.tasks
.
また、マッパー オブジェクトの数は、MapReduce ジョブの入力分割の数によって決まります。map/red 関数を実装し、フレームワークがオブジェクトを作成して、データ ブロックの最も近くに送信します。
マップ タスク スロットとフレームワークによって作成されたマッパー オブジェクトの違いは何ですか。
各ノードが 400Mb の 5 つのデータ ノードに 2TB のファイルを保存しているとします。i を定義するdfs.block.size =100Mb
と、各ノードは 400/100 = 4 データ ブロックを保持します。ここでは、4 つのデータ ブロックのうち、理想的には 4 つの入力分割と、ノードごとに 4 つのマッパー オブジェクトを持つことができます。同時にmapred.tasktracker.map.tasks.maximum = 2
&を定義するとmapred.map.tasks=2
、そこからどのような結論を導き出すことができますか。4 つのマッパー オブジェクトが 2 つのマップ タスク スロットで共有されると言えますか。私は間違った方向に進んでいる可能性があります。明確化が役立つでしょう。
hadoop - レデューサーの出力は HDFS に送信されますが、マップの出力はデータ ノードのローカル ディスクに格納されますか?
HDFS ストレージとデータ ノード ストレージについて少し混乱しています。以下、私の疑問です。
Map 関数の出力はデータ ノードのローカル ディスクに保存され、リデューサーの出力は HDFS に送信されます。データ ブロックがデータ ノードのローカル ディスクに格納されていることは周知の事実ですが、データ ノードの HDFS に使用できる他のディスク領域はありますか??
レデューサー出力ファイル (part-nnnnn-r-00001) の物理的な保存場所は? 名前ノードのハードディスクに保存されますか?
したがって、データノードは HDFS の一部であると仮定し、データノードのローカルディスクも HDFS の一部であると仮定します。
よろしくSuresh
hadoop - ノード内の namenode を検索する hadoop コマンド
私は試した
手順
結果
これは正常に機能していますが、ノード内のnamenodeを見つけるための他のコマンドを知っています
mysql - Hadoop からの mysql レコードの更新
iTunes EPF ファイルを読み取り、それらのレコードを mysql データベース テーブルに挿入するプロセスを完了しました。
レコードを挿入する前に、指定されたレコードがデータベースに存在するかどうかを確認する必要があります。レコードが存在しない場合は、レコードを挿入します。ただし、レコードがデータベースに既に存在する場合は、mysql で対応するレコードを更新する必要があります。
mysql でレコードの存在を確認する方法。このチェックはMapperまたはReducerクラスで実行できるかどうか..?同様に、レコードが存在する場合、レコードを更新する方法。
hadoop - インデックスを使用した HIVE テーブルのパフォーマンス チューニング - 動作と問題?
3列のexternal
ハイブテーブルがあります-abc
遅延再構築を使用したステートメントの一部としてCOMPACT index
、列にを作成しました。c1
create index
今、私はalter index on abc with rebuild
; 私のインデックステーブルにはオフセットとデータがロードされます。
ここに私の質問があります:
1)abc
パフォーマンスの向上を確認するには、ベース テーブルに対してクエリを実行する必要がありますか?
2) 新しいインデックス テーブルに対してクエリを実行する必要がありますか?
3) 設定するプロパティはこれだけset hive.optimize.index.filter=true
ですか?
column にインデックスを付けたにもかかわらず、 columnにフィルター条件を指定してc1
テーブルに対してクエリを実行しても、パフォーマンスの向上は見られません。計画でも、インデックスを使用するケースは示されていません。abc
c1
explain
どうした?誰かが私を案内してくれますか、ありがとう。
hadoop - Hadoop にハードディスクを追加する方法
Ubuntu 14.04 に Hadoop 2.4 をインストールしましたが、現在、既存のクラスターに内部 sata HD を追加しようとしています。
新しい hd を /mnt/hadoop にマウントし、その所有権を hadoop ユーザーに割り当てました
次に、次のように構成ファイルに追加しようとしました。
その後、hdfs を開始しました。
2番目のhdを起動しないようです
これは私のcore-site.xmlです
さらに、namenode を更新しようとしたところ、接続の問題が発生しました。
さらに、Hadoop Web インターフェイスに接続できません。私は2つの関連する問題を抱えているようです:
これらの問題は関連していますか? これらの問題を解決するにはどうすればよいですか?
ありがとう
編集
localhost に ping を実行すると、localhost:50090/status.jsp にアクセスできます。
しかし、50030 と 50070 にアクセスできません。