問題タブ [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive/hadoop は、各マッパーがローカルのデータで動作することをどのように保証しますか?
私を悩ませる2つの基本的な質問:
- ハイブがテーブルを格納するために使用する 32 個のファイルのそれぞれが固有のマシンにあることを確認するにはどうすればよいですか?
- その場合、Hive が 32 のマッパーを作成した場合、それぞれがローカルデータで動作することをどのように確認できますか? hadoop/hdfs はこの魔法を保証しますか? それとも、スマートなアプリケーションとしての hive がそれを確実に実現しますか?
背景: 私は 32 台のマシンからなるハイブ クラスターを持っています。
- 私のすべてのテーブルは
"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
- 私が使う
hive.enforce.bucketing = true;
- 確認したところ、実際にすべてのテーブルが 32 個のファイルとしてユーザー/ハイブ/ウェアハウスに保存されています
- HDFS レプリケーション係数 2 を使用しています
ありがとう!
hadoop - ハイブでコロケート結合 (a-la-netezza) は理論的に可能ですか?
同じキーで分散され、結合条件でこれらのキー列を使用するテーブルを結合すると、netezza の各 SPU (マシン) は他とは 100% 独立して動作します ( nz-interviewを参照)。
ハイブにはバケット化されたマップ結合がありますが、データノードへのテーブルを表すファイルの配布は HDFS の責任であり、ハイブの CLUSTERED BY キーに従って行われません!
同じキーで CLUSTERED BY された 2 つのテーブルがあり、そのキーで結合するとします。ハイブは、一致するバケットが同じノードに配置されるという保証を HDFS から取得できますか? それとも、小さなテーブルの一致するバケットを、大きなテーブル バケットを含むデータノードに常に移動する必要がありますか?
ありがとう、イド
(注: これは私の前の質問のより良い言い回しです: Hive/hadoop は、各マッパーがローカルのデータで動作することをどのように保証しますか? )
hadoop - OLTP Mysql から Hadoop Hive で OLAP を作成する
OLAPの作成に使用されるWikiから読んだHadoopハイブと少し混同しています。今、Mysql を使用する OLTP データベースから Hive で OLAP を作成したいと考えています。
どうすればこれを解決できますか? Hive で OLAP を作成するために Kettle を使用できますか? OLTP mysql から Hive で OLAP を作成する方法についてのガイダンスはありますか?
わかりました。
java - Hive のすぐに使える json パーサー
Hive にロードしたい json レコードを含むテキスト ファイルがあります。私のjsonは次のようになります:
ご覧のとおり、プリミティブの配列とオブジェクトの配列を含むネストされた json があります。
組み込み関数を使用して Hive にそのままロードすることは可能ですか?
よし
hadoop - Pentaho Hadoop で Datasource Hive を作成する
Hive Datasource でレポート デザイナーを作成するために pentaho hadoop を試しています。私はhadoopに接続しました
次に、内部のテーブルにアクセスするために Hive データベースを指すデータソースを作成します。
そして、レポートをデザインし、テーブルのフィールドをデザイナーワークスペースにドラッグすると、エラーメッセージが表示されます
予期しないエラーが発生しました: 生成された SQL クエリは正常に実行されませんでした。
次のようなpentaho fullエラーのログで:
Hive または Pentaho 構成の何が問題になっていますか?
これを解決するにはどうすればよいですか?
hive - Sqoop コマンド --hive-import が失敗しました
Sqoop から " --hive-import " コマンドを使用して、テーブルを自動的に作成し、データをハイブにロードして、Hadoop で mysql から Hive にデータベースをインポートしようとしています。
以下のコマンドを使用して、sqoopでインポートを実行します
このコマンドを実行すると、このようにエラーが発生します
sqoop コマンドの何が問題になっていますか? または sqoop または hive に他の構成がありますか?
お願い助けて
sql - SQL クエリを unix sort、uniq、awk に置き換える
現在、Hive を使用してレポートを生成する HDFS クラスターにいくつかのデータがあります。インフラストラクチャは廃止される過程にあり、データに関するレポートを生成する代替手段を考え出すタスクが残されています (タブ区切りファイルとして新しい環境にインポートしました)。
次のフィールドを持つテーブルがあるとします。
- クエリ
- IPアドレス
- ロケーションコード
Hive で実行していた元の SQL クエリは (正確ではありませんが、似たようなものでした)。
上記のクエリの代わりとして機能する、sort、uniq、awk などの標準の UNIX/Linux ツールを使用して、最も効率的なスクリプトを誰かが提供してくれるかどうか疑問に思っていました。
スクリプトへの入力がテキスト ファイルのディレクトリであると仮定します。ディレクトリには約2000個のファイルが含まれます。各ファイルには、次の形式の任意の数のタブ区切りレコードが含まれます。
sql - Apache Hive の外部テーブルのサブディレクトリを無視する
外部テーブルを照会するときに、Hive にサブディレクトリを無視するよう強制する設定または方法はありますか? テーブル フォルダにテーブルのデータの一部ではないサブディレクトリがあり、それを削除したりファイルを別の場所にコピーしたりしたくありません。
cassandra - 埋め込まれた活発?出来ますか?
私はちょうど新しいアプリケーションを増やし始めており、Cassandraを試して/学び、それをバックエンドに使用することにしました。
埋め込まれたカサンドラが魅力のように機能しています。次に、Hiveを上に追加します。誰かが以前に(DataStaxから)埋め込みBriskを試みたことがありますか?
これはすべての可動部品でさえ可能ですか?
ありがとう!
マックス
java - Hadoop での Hive の実行に関する問題
最新の Hive リリース 0.7.1 をダウンロードしました。
Hadoop インストールが見つかりません: $HADOOP_HOME を設定するか、hadoop がパスに含まれている必要があります
このディレクトリ /home/hadoop/hive-0.7.1-bin/bin に入り、Hive Shell を実行してみました。
./hive shell しかし、CLI で上記のエラーが発生しています。
パスを設定してみました: $HADOOP_HOME=home/hadoop/hadoop/bin
Hadoop 0.20.2 を使用しています