問題タブ [hive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Apache Hive は、プログラミング言語またはデータ ウェアハウスの側面でより多く使用されていますか?
Hive は、MapReduce タイプのジョブを簡単に記述できるようにするための SQL に似たプログラミング言語 (Pig/Pig Latin の SQL に似たバージョン) だと思っていました。しかし、私は今それについて詳しく読んでいますが、実際には完全なデータ ウェアハウス インフラストラクチャであるようです。
これらの使用例の 1 つがより一般的ですか? つまり、主に提供するデータ ウェアハウス インフラストラクチャに使用されますか、それとも SQL に似たインターフェイスに使用されますか? それとも、有用性と重要性の両方の側面が等しいのでしょうか?
(私は、Hive のどの部分について学ぶことに集中すべきかを理解しようとしているので、質問しています。)
hadoop - Hive(Hadoop)のCOLLECT_SET()
Hiveのcollect_set()関数について学び、開発用の3ノードクラスターで仕事を始めました。
処理できるのは約10GBだけです。しかし、その仕事は文字通り永遠にかかっています。collect_set()の実装にバグがあるか、コードにバグがあるか、collect_set()関数が実際にリソースを大量に消費している可能性があると思います。
これがMySQLfor Hiveです(しゃれは意図されていません):
4つのMRパスがあります。最初は約30秒かかりました。2番目のマップは約1分かかりました。そして、2番目の削減のほとんどは約2分かかりました。過去2時間で、97.71%から97.73%に増加しています。これは正しいですか?何か問題があるに違いないと思います。ログを見てみましたが、正常かどうかわかりません。
【ログサンプル】
私はこれにかなり慣れていないので、collect_set()とHive Arrayを操作しようとすると、私は最深部から追い出されます。
前もって感謝します :)
java - COLLECT_SET() ハイブで、重複を保持しますか?
Hive で収集されたセットに重複を保持する方法、または Hive が提供する集計コレクションの種類を他の方法を使用してシミュレートする方法はありますか? 同じキーを持つ列内のすべてのアイテムを重複して配列に集約したいと考えています。
いいえ:
返す必要があります:
maven-2 - MavenプロジェクトでのHiveの使用
アリからメイヴンに移行するプロジェクトがあります。このプロジェクトでは、軽くカスタマイズされたHiveビルドを利用します。このビルドを内部のMavenリポジトリにインポートし、プロジェクトのpomファイルに依存関係としてリストするだけだと思いました。私が遭遇している問題は、Hiveビルドがbuild / dist/libに大量のjarを生成するだけであるということです。これらのいくつかはコアHivejar自体であり、いくつかはHiveが依存するjarです。これらに対処するための最良の方法は何ですか?すべてのコアハイブjarを内部リポジトリに配置し、新しいプロジェクトのpomファイル内の文書化されていない依存関係を処理する必要がありますか?または、すべてをjarのjarとしてjarアップし、それをリポジトリにデプロイしますか?そのアプローチはうまくいくでしょうか?まだメイヴン初心者のようなものです、助けてくれてありがとう。
hadoop - ハイブ - ジョブトラッキング?
私はメソッドを調べてきましたが、Hive のジョブの (eventListener のように!) 完了率を推定する方法を見つけることができないようです。助けてください!編集-クライアントから「マッピングが完了しました... 50%完了しました」を取得できると思いました(コマンドOVERWRITE EXTERNAL TABLEを送信した場合)。OpsCenter と Brisk (Datastax による) はまさにこれを行います。
java - R Hive のインストールの問題とトラブルシューティング
分散テキスト マイニングに R を使用しようとしています。最初のステップは、Hive をローカル マシン上の R で動作させることです。
そこで、次の手順を実行しました。
- Hadoop をローカル マシンにインストール
- ローカル マシンで R を起動しました。そしてrJavaとHiveをインストール
私が直面している主な問題は、R の rJava と Hive で使用される Java ライブラリが、Hadoop で使用されるものとは異なることです。
この問題に遭遇しましたか? 手がかりはありますか?
hadoop - sqoopインポートは完了しましたが、hiveshowテーブルがテーブルを表示できません
hadoop、hive(CDHバージョン)をインストールした後、実行します
すべてうまくいきますが、ハイブコマンドラインに入ってshowtablesを実行しても何もありません。./hadoop fs -lsを使用すると、/ user /(username)/userが存在することがわかります。
どんな助けでも大歓迎です。
- -編集 - - - - - -
次の理由でインポートが失敗します:
hbase - ハイブ: 行のタイムスタンプでデータを取得する方法
ハイブを使用して、HBase テーブルで選択クエリを実行しています。
タイムスタンプ値が X よりも小さいすべての行を取得したいと考えています。
私の質問は、このような選択クエリを作成する方法です (特定の方法で Hive テーブルを作成する必要がありますか?)
hadoop - 解析と Hive/Hadoop への読み込み
Hadoop map reduce フレームワークは初めてで、hadoop map reduce を使用してデータを解析することを考えています。何千もの大きな区切りファイルがあり、これらのファイルを解析してハイブ データ ウェアハウスにロードするためのマップ削減ジョブを作成することを考えています。これらのファイルを解析できるパーサーを perl で作成しました。しかし、私はHadoop map reduceで同じことをすることに行き詰まっています
例: x=ay=bz=c..... x=py=qz=s..... x=1 z=2 .... のようなファイルがあります。
このファイルをハイブテーブルの列 (x、y、z) としてロードする必要がありますが、続行できるかどうかわかりません。これに関するガイダンスは本当に役に立ちます。
これを行う際の別の問題は、フィールド y が欠落しているファイルがいくつかあることです。その条件を map reduce ジョブに含める必要があります。これまでのところ、streaming.jar を使用して、parser.pl をその jar ファイルへの入力としてマッパーとして指定してみました。私はそれを行う方法ではないと思います:)、しかし私はそれがうまくいくかどうか試していました. また、Hive のロード機能を利用することも考えましたが、Hive テーブルで regexserde を指定すると、列が欠落して問題が発生します。
私は今これに迷っています。誰かが私をこれで案内してくれるなら、私は感謝します:)
よろしく、アトゥル
hadoop - Hive テーブルを既存のフィールドで分割しますか?
既存のフィールドによる挿入時に Hive テーブルを分割できますか?
日付フィールドと時間フィールドを持つ 10 GB のファイルがあります。このファイルをテーブルにロードし、それらのフィールドをパーティションとして使用する別のパーティション テーブルに挿入して上書きすることはできますか? 次のようなものは機能しますか?
ありがとう!
トラヴィス